Disaster recovery et haute disponibilite 20 min de lecture

Plans de reprise et tests

Documenter le plan de reprise

Un plan de DR doit inclure :

  • Les roles et responsabilites (qui fait quoi)
  • Les procedures pas-a-pas pour chaque scenario
  • Les contacts d'urgence
  • Les metriques RTO/RPO par service
  • Les runbooks automatises

Chaos Engineering

Testez proactivement la resilience de votre infrastructure :

# Litmus Chaos pour Kubernetes
apiVersion: litmuschaos.io/v1alpha1
kind: ChaosEngine
metadata:
  name: app-chaos
  namespace: production
spec:
  appinfo:
    appns: production
    applabel: app=mon-app
  chaosServiceAccount: litmus-admin
  experiments:
  - name: pod-delete
    spec:
      components:
        env:
        - name: TOTAL_CHAOS_DURATION
          value: "30"
        - name: CHAOS_INTERVAL
          value: "10"
        - name: FORCE
          value: "false"

Runbooks automatises avec Ansible

# runbook-failover.yml
- name: Failover vers la region secondaire
  hosts: localhost
  tasks:
    - name: Verifier la sante de la region primaire
      uri:
        url: "https://primary.example.com/healthz"
        timeout: 10
      register: health
      ignore_errors: true

    - name: Basculer le DNS si la primaire est down
      community.aws.route53:
        state: present
        zone: example.com
        record: app.example.com
        type: A
        value: "{{ secondary_ip }}"
        ttl: 60
      when: health.failed

    - name: Notifier l'equipe
      slack:
        token: "{{ slack_token }}"
        channel: "#incidents"
        msg: "FAILOVER active vers la region secondaire"
      when: health.failed
Best practice : Automatisez au maximum vos procedures de failover. En situation de crise, les procedures manuelles sont source d'erreurs.