Guide de Fréquence de Surveillance : Choisir l'Intervalle Optimal

La fréquence à laquelle vous surveillez vos services impacte directement la rapidité de détection des problèmes. Trop peu fréquent, et vous risquez des pannes prolongées. Trop fréquent, et vous gaspillez des ressources.

Trouver l'équilibre optimal nécessite de considérer plusieurs facteurs.

Qu'est-ce que la Fréquence de Surveillance

La fréquence de surveillance, aussi appelée intervalle de vérification, fait référence à la fréquence à laquelle votre système vérifie l'état de vos services.

Fréquences courantes

Fréquence	Cas d'usage typique
Chaque seconde	Systèmes ultra-critiques
Chaque minute	Services critiques
Toutes les 5 minutes	Services importants
Toutes les 15 minutes	Services standard
Toutes les heures	Services à faible priorité

Fréquences par type de vérification

Différents types de checks peuvent avoir des fréquences différentes :

Type de vérification	Fréquence recommandée
Ping / disponibilité	1-5 minutes
Temps de réponse	1-5 minutes
Tests de transaction	5-15 minutes
Certificats SSL	6-24 heures
Contenu de page	5-30 minutes

Pourquoi la Fréquence Compte

Choisir la bonne fréquence impacte significativement votre posture de fiabilité.

Impact sur le temps de détection

Intervalle	Temps max avant détection	Impact pour site à 10k EUR/h
1 minute	1 minute	167 EUR perdus
5 minutes	5 minutes	833 EUR perdus
15 minutes	15 minutes	2 500 EUR perdus
1 heure	1 heure	10 000 EUR perdus

Pour un site e-commerce à fort trafic, 5 minutes de délai de détection peuvent représenter des milliers d'euros.

Impact sur les faux positifs

Les intervalles très courts peuvent augmenter les faux positifs :

Problèmes réseau transitoires
Pics de charge momentanés
Latence temporaire

Impact sur les données historiques

Intervalle	Points de données/jour	Stockage nécessaire
1 minute	1 440	Élevé
5 minutes	288	Modéré
15 minutes	96	Faible
1 heure	24	Minimal

Impact sur la précision SLA

La fréquence détermine la précision avec laquelle vous pouvez mesurer et rapporter la disponibilité.

Des intervalles de 5 minutes permettent de détecter des pannes de 5+ minutes. Les pannes plus courtes peuvent passer inaperçues.

Choisir la Bonne Fréquence

Plusieurs facteurs devraient guider vos décisions.

1. Criticité du service

Criticité	Fréquence recommandée
Mission critique	1 minute
Critique	1-2 minutes
Important	5 minutes
Standard	15 minutes
Faible priorité	30+ minutes

2. Impact du temps d'arrêt

Calculez le coût par minute d'indisponibilité :

text

Coût/minute = (Revenu annuel / 525 600 minutes) × Facteur de pointe

Si 5 minutes d'arrêt coûtent 10 000 EUR, vérifier chaque minute est justifié.

3. Exigences SLA

Si vous promettez une détection en 1 minute, vous devez vérifier au moins cette fréquence.

Promesse SLA	Intervalle minimum
Détection <1 min	30 secondes
Détection <5 min	1-2 minutes
Détection <15 min	5 minutes

4. Capacité de ressources

Les services à ressources limitées peuvent mal gérer une surveillance fréquente :

Le service supporte-t-il la charge des vérifications ?
La surveillance impacte-t-elle les performances ?
Y a-t-il des limites de rate limiting ?

5. Patterns de défaillance

Type de défaillance	Détection nécessaire
Pannes soudaines	Rapide
Dégradation progressive	Moins urgente
Pannes intermittentes	Fréquente

Si vos services échouent généralement progressivement, des intervalles légèrement plus longs peuvent suffire.

Bonnes Pratiques de Fréquence

Fréquences différenciées par type de check

Utilisez des fréquences différentes selon le type :

Check	Fréquence
Ping basique	Élevée (1 min)
Test de transaction complet	Modérée (5-15 min)
Vérification SSL	Basse (quotidienne)

Surveillance adaptative

Implémentez une surveillance qui s'adapte aux conditions :

text

Normal : vérification toutes les 5 minutes
Problème détecté : vérification toutes les 30 secondes
Problème confirmé : vérification toutes les 10 secondes

La surveillance adaptative fournit plus de données pendant les incidents sans gaspiller des ressources en temps normal.

Considérer les fuseaux horaires

Ajustez la fréquence selon les périodes :

Période	Fréquence
Heures de pointe	Plus fréquente
Nuit / week-end	Moins fréquente
Maintenance planifiée	Adaptée

Stratégies de confirmation

Au lieu d'alerter immédiatement sur un échec :

Détecter l'échec initial
Re-vérifier immédiatement (dans les 10 secondes)
Alerter seulement si le second check échoue aussi

Cela réduit les faux positifs sans réduire la fréquence globale.

Surveiller les métriques de surveillance

Tracez la charge générée par votre surveillance :

Nombre d'appels par minute
Impact sur les ressources
Coût de la surveillance

Révision périodique

Réviser les choix de fréquence trimestriellement
Ajuster selon l'évolution des services
Documenter les justifications

Recommandations par Secteur

E-commerce

Service	Fréquence
Page d'accueil	1 minute
Checkout	1 minute
Catalogue	5 minutes
Blog	15 minutes

SaaS B2B

Service	Fréquence
API principale	1 minute
Dashboard	5 minutes
Documentation	30 minutes

Finance

Service	Fréquence
Trading	30 secondes
Portail client	1 minute
Rapports	15 minutes

Media / Contenu

Service	Fréquence
CDN	1 minute
Site principal	5 minutes
Archive	30 minutes

Checklist de Configuration

Analyse initiale

Lister tous les services à surveiller
Catégoriser par criticité
Calculer le coût du temps d'arrêt
Identifier les contraintes techniques

Configuration

Définir la fréquence pour chaque service
Configurer les stratégies de confirmation
Mettre en place la surveillance adaptative si pertinent
Documenter les choix

Validation

Tester que les intervalles fonctionnent
Vérifier l'absence d'impact sur les services
Valider la détection effective

Conclusion

La fréquence de surveillance est une variable critique qui impacte :

La vitesse de détection
L'efficacité des ressources
Les coûts de surveillance
La précision des rapports SLA

En évaluant soigneusement la criticité du service, l'impact du temps d'arrêt et les contraintes techniques, vous pouvez déterminer les intervalles optimaux.

Il n'y a pas de réponse universellement correcte. L'intervalle de 1 minute essentiel pour les services critiques peut être un gaspillage pour les systèmes de moindre importance.

Configurez des intervalles appropriés pour chaque moniteur : vérifications d'une minute pour les services critiques, intervalles plus longs pour les systèmes moins critiques.

Guides connexes

Bonnes Pratiques de Surveillance — Recommandations complètes incluant la fréquence de monitoring
Surveillance Multi-Localisation — Combinez fréquence et distribution géographique pour plus de précision
Comment Calculer le Pourcentage de Disponibilité — Impact de la fréquence de vérification sur les calculs de disponibilité
Monitoring Synthétique vs RUM — Chaque approche nécessite une fréquence différente