Les temps d’arrêt, en particulier dans les services orientés clients, peuvent coûter aux entreprises des milliers de dollars chaque heure et leur faire perdre la confiance de leurs clients, ce qui est inestimable. Aucune société ne peut se permettre de payer ce prix-là. Pour réduire les temps d’arrêt, les équipes d’ingénierie logicielle doivent agir rapidement et résolument. Plus facile à dire qu’à faire.
Avec Lightstep® Incident Response , disponible dès maintenant chez ServiceNow, nous apportons vitesse, agilité et productivité à vos ingénieurs et vos opérations optimisées par les logiciels.
Nos clients indiquent que les ingénieurs de fiabilité de site (SRE) et les développeurs peuvent recevoir jusqu’à 30 000 alertes par jour, ce qui entraîne une grande lassitude à l’égard des alertes et de l’incertitude quant aux tâches prioritaires. Les architectures distribuées cloud natives qui comportent des dizaines voire des centaines de microservices dépendants augmentent la complexité, ce qui empêche de déterminer la cause première des problèmes réels, et plus encore de les résoudre.
Quand ils trient les alertes et traitent les incidents, les SRE doivent jongler avec de multiples outils pour l’observabilité, la collaboration, l’astreinte et la gestion des incidents. Ils doivent établir manuellement dans quel contexte les événements se produisent et s’adresser aux bons intervenants qui contribueront à l’analyse et à la résolution. Chaque seconde qu’ils passent à naviguer entre plusieurs applications les éloigne d’autant des objectifs très stricts de délai moyen de réparation (MTTR).
De l’information en temps réel à l’action concrete
Selon une enquête menée par IDC auprès des SRE en février 2022, plus d’un tiers des équipes SRE mesurent leur réussite en fonction de l’augmentation des revenus, des bénéfices et de la satisfaction client1 . Les logiciels et services résilients y contribuent largement.
Sans processus de gestion des incidents rationalisés et sans le contexte nécessaire, vos développeurs et SRE peuvent passer des heures à analyser et à résoudre des problèmes inattendus. Le coût des licences par poste pour les outils de gestion des astreintes et des incidents est prohibitif : tous les développeurs ne peuvent donc pas contribuer à fournir des services fiables.
Nous avons pour mission de changer la donne avec Lightstep Incident Response. Notre objectif est de fournir une plateforme de fiabilité cloud native qui permette aux équipes d’ingénieurs d’agir rapidement et d’innover sans crainte. Lightstep Incident Response est une nouvelle étape essentielle du parcours qui a commencé avec Lightstep Observability. En associant l’observabilité en temps réel et la résolution d’incidents, Lightstep offre désormais aux équipes les capacités nécessaires pour assurer innovation et fiabilité.
Optimisé par la Now Platform®, Lightstep Incident Response fournit aux développeurs et aux SRE le contexte et l’automatisation nécessaires pour déterminer la cause première et rationaliser le workflow de réponse aux incidents pour tout ce qui concerne l’observabilité, la gestion des astreintes et des incidents, et la remédiation. Résultats : moins de lassitude à l’égard des alertes et moins de difficultés liées à l’examen et à la résolution d’alertes sans contexte. Tout cela permet de réduire les temps d’arrêt, de mieux satisfaire les clients et d’accroître la productivité.
L’observabilité étendue à toute l’entreprise
Grâce à un modèle de tarification innovant, basé sur l’utilisation et tenant compte du nombre de services actifs, les clients peuvent adopter pleinement la culture de la propriété des services (« créer et utiliser »). Toute l’équipe peut participer aux activités d’astreinte, collaborer sur les incidents critiques et tirer des enseignements d’analyses à froid faites sans reproche, afin de construire des systèmes plus résilients sans craindre de payer des prix exorbitants.
La Now Platform constitue la référence en matière d’IT Operations Management et d’IT Service Management. De nombreuses organisations IT l’utilisent également pour la gestion des incidents à l’échelle de l’entreprise. Lightstep Incident Response s’intègre à la Now Platform afin que des équipes DevOps disséminées puissent facilement rester en contact avec les équipes responsables de la plateforme pour fournir des services fiables et résilients dans toute l’entreprise.
Découvrez comment Lightstep Incident Response peut booster votre business reposant sur des logiciels.
1 IDC : sondage rapide sur les SRE IT aux États-Unis (« US IT Quick Poll Site Reliability Engineering Survey »), #US48859422 (février 2022).