Identifiez et corrigez efficacement les problèmes, améliorez l'intégrité des applications et offrez de meilleures expériences aux clients.

Les trois signaux d'observabilité fondamentaux sont les métriques, les journaux (données semi-structurées) et les traces (flux de demandes du début à la fin à travers l'ensemble des dépendances). Ces signaux sont la sortie des environnements surveillés, comme les conteneurs, les microservices et les applications. L'objectif est de proposer une expérience intégrée aux ingénieurs DevOps et de fiabilité des sites en vue d'isoler les événements critiques, mais aussi d'utiliser tous les signaux d'observabilité pour isoler les problèmes liés aux applications conteneurisées et aux microservices qui s'exécutent n'importe où. Amazon OpenSearch Service combine l'analytique des données de journaux et de trace en une seule solution.

Opérations d'observabilité

Amazon OpenSearch Service offre de nouvelles fonctionnalités pour vous aider à résoudre vos problèmes d'observabilité.

Caractéristiques

Utilisez des interfaces ouvertes pour collecter, acheminer et transformer les données de télémétrie (notamment OpenTelemetry, Fluentd, Fluent Bit, Logstash, Data Prepper, etc.). Vous pouvez rechercher et analyser de grandes quantités de données semi-structurées grâce à des fonctionnalités natives. Vous pouvez visualiser, surveiller et émettre des alertes grâce aux fonctionnalités d’observabilité de détection d’anomalies des OpenSearch Dashboards, et effectuer une analyse et une visualisation interactives des données à l’aide du Piped Processing Language (PPL), une interface de requête.

Collecte

Tout d’abord, vous devez collecter les données à analyser. La collecte comprend la collecte, l'enrichissement, le filtrage, la transformation et la normalisation des données provenant de plusieurs sources.

Detect

Souvent, les clients ne détectent pas les problèmes dès qu'ils surviennent. Il existe souvent un décalage entre le moment où un problème survient et celui où vous en êtes informé. Vous souhaitez donc le réduire autant que possible. La détection doit être proactive et multidimensionnelle (par exemple, des alarmes sur la télémétrie). La détection des anomalies est un outil essentiel, de même que la possibilité de relier entre elles des alarmes connexes afin de réduire la fatigue des alarmes. Un élément essentiel de la détection est également la visualisation et la surveillance, ce que fait Amazon OpenSearch Service à l'aide d'un composant nommé OpenSearch Dashboards. Vous pouvez même analyser les données de manière interactive avec des outils comme PPL.

Enquêter

L’enquête est l’activité à laquelle on consacre le plus de temps au cours d’un événement opérationnel, et elle mobilise généralement plusieurs personnes. C'est elle qui contribue le plus au temps moyen jusqu'à l'incident (MTTI) et au temps moyen de récupération (MTTR). Faire la part des choses et savoir sur quoi se concentrer demeure une tâche complexe. Utilisez les journaux, les métriques et le traçage pour vous aider à mener rapidement une analyse de la cause racine, tout en établissant une corrélation entre les métriques, les journaux et les traces sur AWS, sur site ou dans d’autres clouds. Vous pouvez collaborer sur les études et documenter votre analyse avec les blocs-notes OpenSearch Dashboard.

Correction

Après avoir identifié la cause d’un échec, vous devez la corriger. Il n'y a rien de pire que d'essayer de réparer quelque chose et d'aggraver la situation. N'oubliez pas de procéder à une analyse post-événement afin de déterminer comment vous auriez pu éviter l'échec à l'origine. Documentez les changements proposés afin d'éviter que le problème ne se reproduise. Votre objectif doit être de faire en sorte que le même problème ne se reproduise jamais. Mais si tel est le cas, vous devez être en mesure de l'identifier et de le corriger automatiquement.

Surveillance des performances de l'application

Parfois, la surveillance des performances de l'application (APM) constitue le premier niveau de maturité de l'observabilité. Toutefois, l'APM ne suffit pas Votre application fonctionne-t-elle réellement comme prévu, même si tous les voyants de votre tableau de bord de surveillance des applications sont au vert ? Vos clients bénéficient-ils de l'expérience utilisateur dont ils ont besoin ? Quelle est l'utilisation de votre application ? Quels composants de votre application se heurtent à des limites d'échelle ? Dans quelle région géographique constatez-vous la croissance la plus marquée ? Quelles tendances pouvez-vous visualiser et planifier ? Si vous pouviez rassembler des métriques, vous pourriez avoir la certitude que lorsque vous déployez un nouveau code ou modifiez votre infrastructure, vous pouvez constater l'impact de ces changements. L'observabilité avance l'APM pour répondre à ces questions supplémentaires.

ordinateur affichant le suivi des performances

Clients

Chase International : l'expérience client toujours disponible à grande échelle
Dow Jones et 3M : observabilité avec Amazon OpenSearch Service

Ressources d'observabilité

Affichage de 1 - 8 (11)

Questions d’ordre général

Trace Analytics est une nouvelle fonction d'Amazon OpenSearch Service qui permet aux développeurs et aux opérateurs informatiques de trouver et de résoudre les problèmes de performance des applications distribuées, ce qui entraîne des délais de résolution de problèmes plus rapides. Trace Analytics a été créé à l’aide d’OpenTelemetry, un projet de la Cloud Native Computing Foundation (CNCF) qui fournit un ensemble unique d’API, de bibliothèques, d’agents et de services de collecteurs pour capturer les traces et les métriques distribuées, ce qui permet aux clients d’exploiter Trace Analytics sans devoir ré-instrumenter leurs applications. Trace Analytics est optimisé par le projet OpenSearch qui est open source et peut être téléchargé et utilisé gratuitement par tout un chacun.

Les développeurs et opérateurs informatiques ont besoin de Trace Analytics pour identifier et résoudre les problèmes de performance de leurs applications distribuées. En ajoutant des données de trace aux capacités d'analyse de journaux existantes d'Amazon OpenSearch Service, les clients peuvent utiliser le même service pour isoler la source des problèmes de performance et diagnostiquer leur cause racine. De plus, grâce à a la prise en charge du standard OpenTelemetry, Trace Analytics peut être intégré aux kits SDK Jaeger et Zipkin, deux systèmes de traçage distribués open source populaires, ce qui permet aux développeurs de continuer à utiliser ces kits SDK sans devoir ré-instrumenter leurs applications.

Trace Analytics est une fonction intégrée d'Amazon OpenSearch Service. Elle est à la disposition de tous les clients sans frais supplémentaires. Trace Analytics possède une interface utilisateur basée sur OpenSearch Dashboards et sur Kibana pour la visualisation et l'exploration des données de trace, et est intégré aux fonctions clés d'Amazon OpenSearch Service telles que la détection des anomalies, les alertes, le contrôle précis des accès et la sécurité de l'entreprise. Trace Analytics vient compléter l'utilisation par les clients d'Amazon OpenSearch Service pour la recherche et l'analyse des données de journalisation lors de la résolution de problèmes de performance des applications.

Aujourd’hui, Trace Analytics prend en charge la collecte de données de trace à partir de bibliothèques d’applications et de kits SDK compatibles avec le collecteur open source OpenTelemetry, y compris les kits SDK JaegerZipkin et X-Ray. Trace Analytics s'intègre également à AWS Distro for OpenTelemetry, qui est une distribution des API, des kits SDK et des agents/collecteurs d'OpenTelemetry. Il s'agit d'une distribution performante et sûre des composants OpenTelemetry qui a été testée pour la production et est prise en charge par AWS. Les clients peuvent utiliser AWS Distro for OpenTelemetry pour collecter des traces et des métriques pour plusieurs solutions de surveillance, y compris Amazon OpenSearch Service et AWS X-Ray pour les données de trace, et Amazon CloudWatch pour les métriques.

Pour commencer à utiliser Trace Analytics, consultez la documentation ici.