La fréquence à laquelle vous surveillez vos services impacte directement la rapidité de détection des problèmes. Trop peu fréquent, et vous risquez des pannes prolongées. Trop fréquent, et vous gaspillez des ressources.
Trouver l'équilibre optimal nécessite de considérer plusieurs facteurs.
Qu'est-ce que la Fréquence de Surveillance
La fréquence de surveillance, aussi appelée intervalle de vérification, fait référence à la fréquence à laquelle votre système vérifie l'état de vos services.
Fréquences courantes
| Fréquence | Cas d'usage typique |
|---|---|
| Chaque seconde | Systèmes ultra-critiques |
| Chaque minute | Services critiques |
| Toutes les 5 minutes | Services importants |
| Toutes les 15 minutes | Services standard |
| Toutes les heures | Services à faible priorité |
Fréquences par type de vérification
Différents types de checks peuvent avoir des fréquences différentes :
| Type de vérification | Fréquence recommandée |
|---|---|
| Ping / disponibilité | 1-5 minutes |
| Temps de réponse | 1-5 minutes |
| Tests de transaction | 5-15 minutes |
| Certificats SSL | 6-24 heures |
| Contenu de page | 5-30 minutes |
Pourquoi la Fréquence Compte
Choisir la bonne fréquence impacte significativement votre posture de fiabilité.
Impact sur le temps de détection
| Intervalle | Temps max avant détection | Impact pour site à 10k EUR/h |
|---|---|---|
| 1 minute | 1 minute | 167 EUR perdus |
| 5 minutes | 5 minutes | 833 EUR perdus |
| 15 minutes | 15 minutes | 2 500 EUR perdus |
| 1 heure | 1 heure | 10 000 EUR perdus |
Impact sur les faux positifs
Les intervalles très courts peuvent augmenter les faux positifs :
- Problèmes réseau transitoires
- Pics de charge momentanés
- Latence temporaire
Impact sur les données historiques
| Intervalle | Points de données/jour | Stockage nécessaire |
|---|---|---|
| 1 minute | 1 440 | Élevé |
| 5 minutes | 288 | Modéré |
| 15 minutes | 96 | Faible |
| 1 heure | 24 | Minimal |
Impact sur la précision SLA
La fréquence détermine la précision avec laquelle vous pouvez mesurer et rapporter la disponibilité.
Choisir la Bonne Fréquence
Plusieurs facteurs devraient guider vos décisions.
1. Criticité du service
| Criticité | Fréquence recommandée |
|---|---|
| Mission critique | 1 minute |
| Critique | 1-2 minutes |
| Important | 5 minutes |
| Standard | 15 minutes |
| Faible priorité | 30+ minutes |
2. Impact du temps d'arrêt
Calculez le coût par minute d'indisponibilité :
Coût/minute = (Revenu annuel / 525 600 minutes) × Facteur de pointe
Si 5 minutes d'arrêt coûtent 10 000 EUR, vérifier chaque minute est justifié.
3. Exigences SLA
Si vous promettez une détection en 1 minute, vous devez vérifier au moins cette fréquence.
| Promesse SLA | Intervalle minimum |
|---|---|
| Détection <1 min | 30 secondes |
| Détection <5 min | 1-2 minutes |
| Détection <15 min | 5 minutes |
4. Capacité de ressources
Les services à ressources limitées peuvent mal gérer une surveillance fréquente :
- Le service supporte-t-il la charge des vérifications ?
- La surveillance impacte-t-elle les performances ?
- Y a-t-il des limites de rate limiting ?
5. Patterns de défaillance
| Type de défaillance | Détection nécessaire |
|---|---|
| Pannes soudaines | Rapide |
| Dégradation progressive | Moins urgente |
| Pannes intermittentes | Fréquente |
Bonnes Pratiques de Fréquence
Fréquences différenciées par type de check
Utilisez des fréquences différentes selon le type :
| Check | Fréquence |
|---|---|
| Ping basique | Élevée (1 min) |
| Test de transaction complet | Modérée (5-15 min) |
| Vérification SSL | Basse (quotidienne) |
Surveillance adaptative
Implémentez une surveillance qui s'adapte aux conditions :
Normal : vérification toutes les 5 minutes
Problème détecté : vérification toutes les 30 secondes
Problème confirmé : vérification toutes les 10 secondes
Considérer les fuseaux horaires
Ajustez la fréquence selon les périodes :
| Période | Fréquence |
|---|---|
| Heures de pointe | Plus fréquente |
| Nuit / week-end | Moins fréquente |
| Maintenance planifiée | Adaptée |
Stratégies de confirmation
Au lieu d'alerter immédiatement sur un échec :
- Détecter l'échec initial
- Re-vérifier immédiatement (dans les 10 secondes)
- Alerter seulement si le second check échoue aussi
Cela réduit les faux positifs sans réduire la fréquence globale.
Surveiller les métriques de surveillance
Tracez la charge générée par votre surveillance :
- Nombre d'appels par minute
- Impact sur les ressources
- Coût de la surveillance
Révision périodique
- Réviser les choix de fréquence trimestriellement
- Ajuster selon l'évolution des services
- Documenter les justifications
Recommandations par Secteur
E-commerce
| Service | Fréquence |
|---|---|
| Page d'accueil | 1 minute |
| Checkout | 1 minute |
| Catalogue | 5 minutes |
| Blog | 15 minutes |
SaaS B2B
| Service | Fréquence |
|---|---|
| API principale | 1 minute |
| Dashboard | 5 minutes |
| Documentation | 30 minutes |
Finance
| Service | Fréquence |
|---|---|
| Trading | 30 secondes |
| Portail client | 1 minute |
| Rapports | 15 minutes |
Media / Contenu
| Service | Fréquence |
|---|---|
| CDN | 1 minute |
| Site principal | 5 minutes |
| Archive | 30 minutes |
Checklist de Configuration
Analyse initiale
- Lister tous les services à surveiller
- Catégoriser par criticité
- Calculer le coût du temps d'arrêt
- Identifier les contraintes techniques
Configuration
- Définir la fréquence pour chaque service
- Configurer les stratégies de confirmation
- Mettre en place la surveillance adaptative si pertinent
- Documenter les choix
Validation
- Tester que les intervalles fonctionnent
- Vérifier l'absence d'impact sur les services
- Valider la détection effective
Conclusion
La fréquence de surveillance est une variable critique qui impacte :
- La vitesse de détection
- L'efficacité des ressources
- Les coûts de surveillance
- La précision des rapports SLA
En évaluant soigneusement la criticité du service, l'impact du temps d'arrêt et les contraintes techniques, vous pouvez déterminer les intervalles optimaux.
Configurez des intervalles appropriés pour chaque moniteur : vérifications d'une minute pour les services critiques, intervalles plus longs pour les systèmes moins critiques.