Définir ce qui constitue un temps d'arrêt acceptable est une décision commerciale critique. Trop ambitieux, et vous gaspillerez des ressources. Trop laxiste, et vous risquez de perdre des clients.
La bonne réponse varie selon votre industrie, modèle d'affaires et paysage concurrentiel.
Qu'est-ce que le Temps d'Arrêt Acceptable
Le temps d'arrêt acceptable est la période maximale pendant laquelle votre service peut être indisponible sans causer d'impact commercial inacceptable.
Une décision commerciale, pas technique
Ce n'est pas un concept technique. C'est une décision commerciale informée par des contraintes techniques.
Exemples par type de service
| Type de service | Disponibilité cible | Temps d'arrêt acceptable/an |
|---|---|---|
| Portfolio personnel | 99% | 3,65 jours |
| Blog d'entreprise | 99% | 3,65 jours |
| E-commerce | 99,9% | 8,76 heures |
| Trading financier | 99,99% | 52,6 minutes |
| Systèmes de santé critiques | 99,999% | 5,26 minutes |
L'alignement avec l'impact commercial
La clé est d'aligner vos objectifs de disponibilité avec l'impact commercial réel de l'indisponibilité.
Pourquoi Définir le Temps d'Arrêt Acceptable
Définir explicitement le temps d'arrêt acceptable sert plusieurs fonctions importantes.
Établir des attentes claires
Quand tout le monde comprend ce qui est réaliste, il y a moins de friction autour :
- Des incidents
- Des investissements en infrastructure
- Des décisions de priorité
Guider les investissements
Savoir que vous visez 99,9% plutôt que 99,99% vous évite de sur-ingéniérer des solutions.
| Objectif | Investissement relatif |
|---|---|
| 99% | 1x |
| 99,9% | 3-5x |
| 99,99% | 10-20x |
| 99,999% | 50-100x |
Permettre le budget d'erreur
Le budget d'erreur est un concept SRE où vous utilisez la différence entre performance actuelle et objectif pour :
- Permettre des déploiements risqués
- Expérimenter avec de nouvelles technologies
- Accélérer le rythme d'innovation
Prioriser les efforts
Les objectifs explicites aident à prioriser les efforts de fiabilité parmi les services basé sur leur tolérance relative.
Comment Déterminer le Temps d'Arrêt Acceptable
Déterminer le temps d'arrêt acceptable implique plusieurs considérations.
1. Quantifier l'impact commercial
Calculez le coût du temps d'arrêt :
- Revenus perdus par heure
- Impact sur la productivité
- Pénalités contractuelles
- Dommages réputationnels
2. Considérer les attentes des utilisateurs
Évaluez le paysage concurrentiel :
- Quelle disponibilité offrent vos concurrents ?
- Quelles sont les attentes du marché ?
- Votre industrie a-t-elle des standards établis ?
3. Évaluer vos capacités actuelles
Quelle disponibilité atteignez-vous aujourd'hui sans investissement supplémentaire ?
Objectif réaliste = Performance actuelle + Amélioration progressive
4. Estimer le coût de l'amélioration
| Transition | Coût typique |
|---|---|
| 99% -> 99,9% | Modeste |
| 99,9% -> 99,99% | Significatif |
| 99,99% -> 99,999% | Exponentiel |
5. Différencier planifié vs non planifié
Les fenêtres de maintenance peuvent être acceptables alors que les pannes inattendues ne le sont pas.
| Type | Traitement typique |
|---|---|
| Maintenance planifiée | Exclu du calcul SLA |
| Panne non planifiée | Compte contre le SLA |
| Incident de sécurité d'urgence | Souvent exclu |
6. Considérer les dépendances temporelles
Le temps d'arrêt à 3h du matin impacte moins que pendant les heures de pointe.
7. Vérifier les exigences réglementaires
Certaines industries imposent des standards de disponibilité minimum :
- Finance : souvent 99,9% minimum
- Santé : disponibilité critique pour les systèmes de vie
- Gouvernement : exigences spécifiques selon les services
Bonnes Pratiques pour les Objectifs
Objectifs différenciés par service
Fixez des objectifs différents basés sur la criticité commerciale :
| Tier | Exemples | Objectif |
|---|---|---|
| Tier 1 | Paiement, authentification | 99,99% |
| Tier 2 | Catalogue, recherche | 99,9% |
| Tier 3 | Analytics, reporting | 99% |
Communication claire
Exprimez les objectifs en termes compréhensibles :
- Technique : 99,9%
- Business : moins de 45 minutes d'arrêt par mois
Révision régulière
- Réviser les objectifs annuellement
- Ajuster selon l'évolution du business
- Aligner avec les capacités techniques actuelles
Tampons dans les promesses
Si vous pouvez atteindre 99,9%, promettez 99,5% aux clients :
- Permet des circonstances inattendues
- Évite les pénalités sur les mois difficiles
- Maintient la satisfaction client
Documentation de la justification
Documentez pourquoi chaque objectif a été choisi pour que les futures discussions puissent référencer le processus de décision.
Checklist de Définition des Objectifs
Analyse préliminaire
- Identifier tous les services à catégoriser
- Calculer le coût du temps d'arrêt par service
- Documenter les exigences réglementaires
- Analyser la performance historique
Définition des objectifs
- Assigner une criticité à chaque service
- Définir un objectif pour chaque niveau de criticité
- Valider la faisabilité technique
- Obtenir l'approbation du management
Communication et suivi
- Communiquer les objectifs à toutes les équipes
- Mettre en place le suivi des métriques
- Planifier les revues périodiques
- Définir le processus d'ajustement
Conclusion
Définir le temps d'arrêt acceptable est un exercice fondamental qui impacte tout, des décisions d'infrastructure aux engagements clients.
En considérant soigneusement l'impact commercial, les attentes des utilisateurs et les capacités techniques, vous pouvez arriver à des objectifs réalisables et significatifs.
Une fois vos objectifs établis, la surveillance continue devient essentielle pour suivre la performance et identifier les opportunités d'amélioration.