Elastic Observability: Llevar el tiempo promedio de resolución a cero
En ElasticON Global 2021, Tanya Bragin, vicepresidente de productos (Observability) y el equipo de Elastic Observability mostraron cómo las innovaciones continuas siguen brindando información procesable y detección más rápida de la causa raíz, lo que reduce el tiempo promedio de resolución (MTTR).
La adopción del cloud, microservicios y una infraestructura efímera lleva a una mayor complejidad, y esto requiere una solución de observabilidad que proporcione visibilidad integral. Elastic Observability, tal como reconocen Gartner, GigaOm y EMA, sigue creando una solución integral gracias a que proporciona funcionalidad relacionada con lo siguiente:
- Agente unificado para la ingesta de todos los datos de telemetría con gestión centralizada
- Integración con tecnologías nativas del cloud (por ej., Kubernetes)
- Integraciones nativas con los principales Proveedores Cloud, incluidos Amazon Web Services, Microsoft Azure y Google Cloud Platform
- Análisis de causa raíz automatizado en el monitoreo de rendimiento de aplicaciones (APM), aprovechando machine learning
- Flujos de trabajo de solución de problemas de APM mejorados que integran logs, dependencias de terceros y servicios de backend
- Mapas de servicio intuitivos para la solución de problemas contextual
- Soporte de OpenTelemetry (OTel)
- Mejoras en el monitoreo sintético y el monitoreo de usuario real (RUM)
Hacer que los datos sean relevantes, contextuales y procesables
Los equipos de operaciones y desarrollo suelen enfrentarse a herramientas en silos relacionadas con métricas, logs y rastreos. Incluso con una sola herramienta, los datos suelen encontrarse en silos sin contexto o les faltan metadatos relevantes (dimensionalidad), lo que aumenta el tiempo promedio de detección (MTTD) y de resolución (MTTR). Elastic Observability escala sin problemas a grandes cantidades de datos con dimensionalidad y cardinalidad sin (o con pocas) sorpresas relacionadas con el costo o el rendimiento.
La incorporación sin problemas a través de Elastic Agent y la gestión centralizada permiten la recopilación simplificada de todos los datos de telemetría, incluidos aquellos de tecnologías nativas del cloud, como Kubernetes. También agregamos integraciones con Microsoft Azure y Google Cloud Platform para ingestar de forma nativa los datos de telemetría; y próximamente habrá más integraciones.
Se necesita contexto para la resolución rápida y eficiente de incidentes. Los mapas de servicio de Elastic APM visualizan la topología de las aplicaciones y aceleran la resolución de problemas gracias a que te brindan la capacidad de ver los estados de los servicios, las anomalías detectadas y los logs en el contexto de las transacciones. También permiten comparar el rendimiento de los servicios sobre la base de cualquier referencia histórica, lo que facilita la detección de servicios que no se comportan correctamente. El reciente soporte para vistas de rendimiento de dependencias de servicios de terceros elimina los puntos ciegos de tu entorno. También ampliamos nuestras capacidades de APM con soporte para el agente Mobile iOS, en la vista previa técnica.
Nuestro siguiente paso en este recorrido para unir los puntos es entregar contexto entre tu aplicación e infraestructura. Con frecuencia, el rendimiento de las aplicaciones se degrada por problemas de rendimiento en la infraestructura. Brindaremos la capacidad de ver el rendimiento de la infraestructura en contexto a los logs de rendimiento de las aplicaciones y relacionados, y ofreceremos una observabilidad unificada. También nos han solicitado la capacidad de comparar el rendimiento del servicio en todas las versiones, regiones del cloud, zonas de disponibilidad y otros metadatos. Esta capacidad futura ayudará a comparar el rendimiento entre despliegues canary o A/B, y permitirá la resolución rápida de problemas de despliegue.
Analíticas ad hoc y machine learning
Con la naturaleza distribuida de las aplicaciones modernas y petabytes de datos de telemetría generados a diario, ningún equipo o individuo tiene un panorama completo de todas las dependencias. Para resolver de forma efectiva problemas complejos, los equipos necesitan machine learning para brindar información procesable y poder hacer preguntas de sus datos.
La plataforma de Elastic proporciona machine learning completo y listo para usar, junto con la capacidad de crear tus propios trabajos de machine learning personalizados. Nuestra capacidad de correlaciones de APM aprovecha el machine learning de forma interna para analizar las desviaciones en el rendimiento de las aplicaciones a fin de identificar servicios que no se comportan correctamente. Esto elimina la necesidad de buscar y analizar datos, lo que da como resultado menos tiempo de inactividad y mayor productividad de los desarrolladores.
Nos damos cuenta de que los sistemas son complejos y de que los equipos de IT Ops, SRE y DevOps necesitan analizar e investigar los datos para comprender lo desconocido. Próximamente estará disponible para el público en general una nueva UI intuitiva con la capacidad de hacer preguntas y curar la exploración de datos para diferentes cohortes. Esta capacidad te permite comenzar a superponer, filtrar y explorar datos de varias fuentes además de distintos tipos de datos. La vista de exploración de datos ad hoc curada e interactiva te permite adentrarte en los datos, comprender lo desconocido y minimizar el tiempo necesario para investigar la causa raíz.
Lo abierto es parte de nuestro ADN
La base de Elastic Observability es lo abierto; te proporciona total control y flexibilidad de tus datos de monitoreo de rendimiento. Nuestro soporte continuo de proyectos open source ayudó a dar forma y definir nuestro roadmap de productos. De OpenTracing y OpenMetrics a Jaeger, Prometheus y ahora OpenTelemetry, siempre hemos sido uno de los primeros en adoptar los protocolos y estándares abiertos.
Prometheus es el estándar de hecho para las métricas y proporciona a los clientes una opción de estándar abierto para almacenar métricas. Elastic Observability se integra a Prometheus para brindarte la opción de almacenar y analizar métricas. OpenTelemetry (OTel) es un proyecto de CNCF que desarrolla estándares comunes y abiertos para métricas, logs y rastreos. Elastic brinda soporte nativo para OpenTelemetry a través de un endpoint de protocolo OTel (OTLP) o transmitido mediante Kafka a la plataforma de Elastic. Elastic Observability sigue invirtiendo en open source y brindando soporte: creemos que los clientes deberían tener la posibilidad de elegir y el control de sus operaciones.
Nuestro trabajo continúa con tu ayuda
Seguimos escuchando detenidamente a nuestros clientes para ofrecer una plataforma de observabilidad unificada e integral. Tomando como base la plataforma de búsqueda empresarial más robusta disponible, innovamos para brindar soporte a entornos de IT complejos. Gracias a la participación activa de nuestra comunidad, Elastic Observability continúa brindando visibilidad de tus entornos híbridos y nativos del cloud con una plataforma abierta y extensible.
Para conocer más sobre la visión de Elastic Observability, mira la conferencia principal y otras sesiones sobre Observability de ElasticON Global a demanda o echa un vistazo a la página de Elastic Observability en el sitio web de Elastic.
El lanzamiento y la sincronización de cualquier característica o funcionalidad descrita en este blog quedan a la entera discreción de Elastic. Cualquier característica o funcionalidad que no esté disponible actualmente puede no entregarse a tiempo o no entregarse en absoluto.