Identifiez et corrigez efficacement les problèmes, améliorez l'intégrité des applications et offrez de meilleures expériences aux clients.
Les trois signaux d'observabilité fondamentaux sont les métriques, les journaux (données semi-structurées) et les traces (flux de demandes du début à la fin à travers l'ensemble des dépendances). Ces signaux sont la sortie des environnements surveillés, comme les conteneurs, les microservices et les applications. L'objectif est de proposer une expérience intégrée aux ingénieurs DevOps et de fiabilité des sites en vue d'isoler les événements critiques, mais aussi d'utiliser tous les signaux d'observabilité pour isoler les problèmes liés aux applications conteneurisées et aux microservices qui s'exécutent n'importe où. Amazon OpenSearch Service combine l'analytique des données de journaux et de trace en une seule solution.
Opérations d'observabilité
Amazon OpenSearch Service offre de nouvelles fonctionnalités pour vous aider à résoudre vos problèmes d'observabilité.
Caractéristiques
Utilisez des interfaces ouvertes pour collecter, acheminer et transformer les données de télémétrie (notamment OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper, etc.). Vous pouvez rechercher et analyser de grandes quantités de données semi-structurées grâce à des fonctionnalités natives. Vous pouvez visualiser, surveiller et émettre des alertes grâce aux fonctionnalités d’observabilité de détection d’anomalies des OpenSearch Dashboards, et effectuer une analyse et une visualisation interactives des données à l’aide du Piped Processing Language (PPL), une interface de requête.
Collecte
Tout d’abord, vous devez collecter les données à analyser. La collecte comprend la collecte, l'enrichissement, le filtrage, la transformation et la normalisation des données provenant de plusieurs sources.
Detect
Souvent, les clients ne détectent pas les problèmes dès qu'ils surviennent. Il existe souvent un décalage entre le moment où un problème survient et celui où vous en êtes informé. Vous souhaitez donc le réduire autant que possible. La détection doit être proactive et multidimensionnelle (par exemple, des alarmes sur la télémétrie). La détection des anomalies est un outil essentiel, de même que la possibilité de relier entre elles des alarmes connexes afin de réduire la fatigue des alarmes. Un élément essentiel de la détection est également la visualisation et la surveillance, ce que fait Amazon OpenSearch Service à l'aide d'un composant nommé OpenSearch Dashboards. Vous pouvez même analyser les données de manière interactive avec des outils comme PPL.
Enquêter
L’enquête est l’activité à laquelle on consacre le plus de temps au cours d’un événement opérationnel, et elle mobilise généralement plusieurs personnes. C'est elle qui contribue le plus au temps moyen jusqu'à l'incident (MTTI) et au temps moyen de récupération (MTTR). Faire la part des choses et savoir sur quoi se concentrer demeure une tâche complexe. Utilisez les journaux, les métriques et le traçage pour vous aider à mener rapidement une analyse de la cause racine, tout en établissant une corrélation entre les métriques, les journaux et les traces sur AWS, sur site ou dans d’autres clouds. Vous pouvez collaborer sur les études et documenter votre analyse avec les blocs-notes OpenSearch Dashboard.
Correction
Après avoir identifié la cause d’un échec, vous devez la corriger. Il n'y a rien de pire que d'essayer de réparer quelque chose et d'aggraver la situation. N'oubliez pas de procéder à une analyse post-événement afin de déterminer comment vous auriez pu éviter l'échec à l'origine. Documentez les changements proposés afin d'éviter que le problème ne se reproduise. Votre objectif doit être de faire en sorte que le même problème ne se reproduise jamais. Mais si tel est le cas, vous devez être en mesure de l'identifier et de le corriger automatiquement.
Surveillance des performances de l'application
Parfois, la surveillance des performances de l'application (APM) constitue le premier niveau de maturité de l'observabilité. Toutefois, l'APM ne suffit pas Votre application fonctionne-t-elle réellement comme prévu, même si tous les voyants de votre tableau de bord de surveillance des applications sont au vert ? Vos clients bénéficient-ils de l'expérience utilisateur dont ils ont besoin ? Quelle est l'utilisation de votre application ? Quels composants de votre application se heurtent à des limites d'échelle ? Dans quelle région géographique constatez-vous la croissance la plus marquée ? Quelles tendances pouvez-vous visualiser et planifier ? Si vous pouviez rassembler des métriques, vous pourriez avoir la certitude que lorsque vous déployez un nouveau code ou modifiez votre infrastructure, vous pouvez constater l'impact de ces changements. L'observabilité avance l'APM pour répondre à ces questions supplémentaires.