Les 3 piliers de l'observabilite
- Metriques — Valeurs numeriques dans le temps (CPU, RAM, requetes/s)
- Logs — Evenements textuels horodates
- Traces — Suivi d'une requete a travers les services
Prometheus + Node Exporter
# Node Exporter expose les metriques systeme sur :9100
curl http://localhost:9100/metrics
# Prometheus scrape ces metriques et les stocke
# Requete PromQL exemple :
# node_cpu_seconds_total{mode="idle"}
# rate(node_network_receive_bytes_total[5m])
Alerting
3 alertes essentielles :
- Disque — Alerte si usage > 85%
- RAM — Alerte si disponible < 10%
- Service down — Alerte si un service critique ne repond plus
Centralisation des logs
# rsyslog peut envoyer les logs vers un serveur central
# ELK (Elasticsearch + Logstash + Kibana) ou OpenSearch
# Loki + Grafana pour une solution plus legere
Regle d'or : Surveillez ce qui compte pour vos utilisateurs. Evitez les alertes trop sensibles (alert fatigue).