Un seul canal de notification ne suffit pas pour les alertes critiques. Les retards email, les pannes Slack et les appels manqués arrivent. Une stratégie multi-canal assure que vous êtes toujours notifié quand ça compte vraiment.
Pourquoi Multi-Canal ?
Échecs de canal unique :
- Email - Filtres spam, délais de livraison, inbox surchargée
- Slack - Pannes de service, paramètres de notification, crashes app
- SMS - Problèmes opérateur, téléphone éteint, mode ne pas déranger
- Téléphone - Appels manqués, délais de messagerie vocale
Le multi-canal assure des chemins de livraison de secours.
Caractéristiques des Canaux
| Canal | Vitesse | Fiabilité | Intrusivité | Coût |
|---|---|---|---|---|
| Appel téléphonique | Instant | Haute | Très haute | Élevé |
| SMS | Instant | Haute | Haute | Moyen |
| Notification push | Instant | Moyenne | Moyenne | Faible |
| Slack/Discord | Rapide | Moyenne | Faible | Gratuit |
| Lent | Haute | Faible | Gratuit |
Concevoir Votre Stratégie
Étape 1 : Classifier la Sévérité des Alertes
Définissez des niveaux de sévérité clairs :
| Niveau | Définition | Exemple |
|---|---|---|
| Critique | Production down, impact revenus | API retournant 500 |
| Haute | Performance dégradée, échec imminent | Temps réponse > 5s |
| Moyenne | Problème potentiel, attention requise | SSL expire dans 7 jours |
| Basse | Informationnel, pas d'action immédiate | Déploiement réussi |
Étape 2 : Mapper les Canaux aux Sévérités
| Sévérité | Canal Principal | Canal Backup | Tertiaire |
|---|---|---|---|
| Critique | Appel téléphonique | SMS | Slack |
| Haute | SMS | Slack | |
| Moyenne | Slack | - | |
| Basse | - | - |
Étape 3 : Définir le Routage Basé sur l'Heure
Stratégies différentes pour différentes heures :
Heures de bureau (9h - 18h) :
- Critique : Slack → SMS (après 5 min)
- Haute : Slack → Email
- Moyenne/Basse : Email uniquement
Hors heures (18h - 9h) :
- Critique : Appel → SMS → Slack
- Haute : SMS → Slack
- Moyenne : En file pour le matin
- Basse : Ignorer
Construire la Redondance
Notification Parallèle
Envoyez à plusieurs canaux simultanément :
Alerte Critique
├── SMS à l'astreinte
├── Appel à l'astreinte
├── Slack #incidents
└── Email à l'équipe
Escalade Séquentielle
Si pas d'accusé de réception, escaladez :
T+0: Notification Slack
T+5: SMS à l'astreinte principale
T+10: Appel à l'astreinte principale
T+15: SMS à l'astreinte secondaire
T+20: Appel à l'astreinte secondaire
T+30: Pager toute l'équipe
Éviter la Fatigue d'Alerte
Le multi-canal ne signifie pas plus de bruit. Prévenez la fatigue :
Déduplication
Ne répétez pas la même alerte :
if cle_alerte in alertes_recentes:
return # Ignorer le doublon
alertes_recentes.add(cle_alerte)
expire_apres(cle_alerte, minutes=30)
Regroupement Intelligent
Groupez les alertes connexes :
Au lieu de :
- Serveur 1 down
- Serveur 2 down
- Serveur 3 down
Envoyez :
- 3 serveurs down dans le cluster us-east
Tests de Votre Stratégie
Exercices Réguliers
Tests mensuels :
- Déclencher une alerte critique de test
- Vérifier que tous les canaux reçoivent
- Chronométrer la vitesse d'accusé de réception
- Tester le chemin d'escalade
Tests de Chaos
Simulez périodiquement des échecs de canal :
- Désactivez l'intégration Slack
- Déclenchez une alerte
- Vérifiez que le canal de backup fonctionne
- Réactivez et vérifiez la récupération
Checklist Stratégie d'Alertes
- Niveaux de sévérité définis
- Canaux mappés aux sévérités
- Routage basé sur l'heure configuré
- Politiques d'escalade créées
- Canaux de backup configurés
- Déduplication activée
- Heures calmes respectées
- Tests réguliers programmés
- Documentation complète
- Tracking des métriques activé