Observabilite et monitoring 22 min de lecture

Metriques, logs et alerting

Les 3 piliers de l'observabilite

  • Metriques — Valeurs numeriques dans le temps (CPU, RAM, requetes/s)
  • Logs — Evenements textuels horodates
  • Traces — Suivi d'une requete a travers les services

Prometheus + Node Exporter

# Node Exporter expose les metriques systeme sur :9100
curl http://localhost:9100/metrics

# Prometheus scrape ces metriques et les stocke
# Requete PromQL exemple :
# node_cpu_seconds_total{mode="idle"}
# rate(node_network_receive_bytes_total[5m])

Alerting

3 alertes essentielles :

  1. Disque — Alerte si usage > 85%
  2. RAM — Alerte si disponible < 10%
  3. Service down — Alerte si un service critique ne repond plus

Centralisation des logs

# rsyslog peut envoyer les logs vers un serveur central
# ELK (Elasticsearch + Logstash + Kibana) ou OpenSearch
# Loki + Grafana pour une solution plus legere
Regle d'or : Surveillez ce qui compte pour vos utilisateurs. Evitez les alertes trop sensibles (alert fatigue).