O que é AIOps? Guia de introdução
Como entender a AIOps para observability
A inteligência artificial para operações de TI (ou AIOps) continua a ser um tema em alta entre desenvolvedores, SREs e profissionais de DevOps. O caso da AIOps é particularmente essencial devido à natureza expansiva dos esforços de observability de hoje em todos os ambientes híbridos e multinuvem. Assim como acontece com a maioria das plataformas de observability, tudo começa com os seus dados de telemetria: métricas, logs, traces e eventos.
Assim que as equipes de operações de TI coletam e iniciam a análise dos dados, o benefício da AIOps logo torna-se claro. A AIOps tem como objetivo identificar com precisão e de forma proativa áreas que precisam de atenção e assistir as equipes de TI na resolução dos problemas mais rapidamente. É humanamente impossível analisar um volume de petabytes de dados brutos de observability. Mas, com a AIOps, uma camada de inteligência é usada por meio de analítica e automação para ajudar a reduzir a sobrecarga da equipe. Vamos ao detalhamento para responder a perguntas comuns sobre esse tópico tão importante.
O que é a AIOps e como ela pode me ajudar?
Em resumo, a AIOps é a capacidade dos sistemas de software de facilitar e auxiliar as operações de TI com o uso de IA/ML e tecnologias analíticas relacionadas. As funcionalidades de AIOps podem ser aplicadas à ingestão e ao processamento de diversos dados operacionais, incluindo dados de log, traces, métricas e muitos outros.
As definições e explicações dadas por instituições como a Gartner™ e a Forrester™, entre outras, buscam esclarecer o mundo geralmente obscuro e confuso das AIOps. As AIOps podem ajudar de maneira significativa o tempo e o esforço usados para detectar, entender, investigar, identificar causas raiz e remediar problemas e incidentes mais rapidamente. A economia de tempo durante a resolução de problemas pode, por sua vez, ajudar os profissionais de TI a canalizar mais sua energia para tarefas e projetos de maior importância.
Por que você precisa das AIOps como parte de sua estratégia de observability?
A dinâmica do mercado está mudando de forma extrema o cenário de operações de TI, seja nas iniciativas de transformação digital ou na migração para a nuvem para implantações de aplicação distribuída, híbrida ou nativa da nuvem.
As mudanças no cenário têm estas três características:
- Volume de dados: o volume de dados para observability continua a aumentar exponencialmente
- Complexidade: aplicações, cargas de trabalho e implantações continuam a ficar mais complexas, efêmeras e distribuídas
- Ritmo de mudança: a velocidade na qual as mudanças (em aplicação e infraestrutura) ocorrem está mais rápida do que nunca
Elas não se excluem mutuamente. De certa forma, às vezes acontece justamente o contrário. Por exemplo, altos índices de mudança e implantações complexas utilizando redimensionamento automático significa um volume de dados ainda maior. Essa complexidade crescente indica que as pessoas vão depender cada vez mais dos sistemas e da automação para lidar com as mudanças. E o papel da AIOps é essencial para resolver esses desafios.
Para aliviar algumas das dificuldades em relação ao volume, é possível aproveitar a IA/ML para resumir e fazer o rollup dos dados e organizá-los de forma inteligente para o armazenamento. Representações visuais claras de um ambiente de aplicação realizadas por meio de mapas de dependência de infraestrutura e serviço, por exemplo, e uma navegação contextual ajudam no alinhamento dos esforços de resolução de problemas de como os usuários pensam naturalmente sobre sua implantação. Além disso, revelar automaticamente os problemas e as análises de causa raiz resolverá alguns dos outros desafios de complexidade.
Os produtos de observability precisarão manter o controle de todas as alterações de aplicações e infraestrutura e correlacionar essas mudanças com o comportamento do sistema e a experiência do usuário, pois a mudança é frequentemente a causa raiz de comportamentos agudos e anômalos. Uma atualização ou patch de um novo recurso com consequências não intencionais é um exemplo típico. Com essas correlações ativadas, as equipes podem atuar de forma mais ágil e prática para acompanhar essas mudanças frequentes, o que ajuda a manter o desempenho dos serviços.
Dessa forma, a AIOps tem um papel fundamental nesse processo e, quando implementada e usada de forma correta, pode ajudar a ultrapassar esses desafios de forma eficaz, liberando as equipes de operações para se concentrarem em trabalhos mais importantes.
Em quais casos de uso de observability a AIOps opera melhor?
Diversos fluxos de trabalho de observability e casos de uso já são muito bem servidos com a aplicação de técnicas e tecnologias de AIOps, por exemplo:
- A degradação de serviço, como variações súbitas ou inesperadas na latência, pode ser detectada por meio de detecção de anomalia.
- Volumes massivos de dados, como mensagens de log não estruturado ou semiestruturado, podem ser classificados, categorizados e resumidos automaticamente para ajudar a facilitar o consumo e a análise.
- Vários sintomas, eventos e problemas podem ser correlacionados para ajudar a eliminar o “ruído” de alerta, bem como reduzir o tempo até a determinação da causa raiz.
- A pontuação automática de integridade baseada na avaliação do impacto, da extensão de anomalias e outras medições ajudam a revelar as problemas mais críticos primeiro, reduzindo mais o ruído.
Nas relações mais bem compreendidas e testadas com o tempo, do tipo “se o sintoma apresentado é este, então a causa raiz provavelmente é esta”, a AIOps pode ajudar automaticamente a buscar, detectar e classificar tais sintomas, além de revelar as causas raiz em potencial. A AIOps também pode ativar ações de remediação para resolver problemas de rotina ou triviais. Em um futuro post do blog, vamos detalhar mais os casos de uso importantes e ensinar como você pode identificar os cenários em que deve aplicar a AIOps em suas operações diárias.
Como a AIOps impulsiona o valor dos negócios em uma organização?
Assim como acontece em muitas iniciativas de TI e desenvolvimento de software, a AIOps beneficia a organização e a equipe de várias maneiras. A AIOps pode reduzir de forma significativa o trabalho tedioso e repetitivo exigido das equipes de operações de TI (ITOps), de engenharia de confiabilidade do site (SRE) e de DevOps, e ainda há outros benefícios importantes para as empresas:
- Redução do MTTD e do MTTR (tempo médio até a detecção e tempo médio até a resolução), o que gera menos tempo de inatividade do serviço, SLAs melhorados e uma melhor experiência do cliente.
- Ajuda para as organizações lidarem com volumes de dados em rápido crescimento de forma inteligente, reduzindo o custo total de propriedade (TCO) e aliviando os desafios de redimensionamento.
- Redução do ruído de sinal e de alerta e implementação de uma automação melhor para liberar as equipes de operações para assumir iniciativas mais importantes.
- Melhoramento da capacidade da organização de lidar com a complexidade sempre crescente da TI e com o ritmo geral das mudanças, permitindo que as empresas ofereçam qualidade aos clientes com mais frequência e mais rapidez.
Devido ao volume, à complexidade e ao ritmo da mudança nos ambientes atuais de aplicação híbrida e nativa da nuvem, a AIOps está cada vez mais deixando de ser um recurso desejável e transformando-se em uma competência crucial para as equipes de operações de TI.
Como conseguir estabelecer a confiança necessária na AIOps e prepará-la para ser usada na produção?
O pessoal de TI, os SREs e os engenheiros de DevOps precisam vencer alguns obstáculos para adotar com sucesso o recurso AIOps e aplicá-lo em seus casos de uso de observability.
De um lado observamos muita dificuldade com todo o jargão da área, e isso é o que não falta no mercado de AIOps. Os usuários acabam em dúvida sobre o que há de real valor por trás de todo aquele linguajar específico. Eles também se perguntam se a AIOps vai tornar o processo de detecção e remediação dos problemas mais eficiente e melhor do que o sistema que têm atualmente para monitoramento e observability. Mesmo com toda a promoção e a terminologia para informar os usuários, nem sempre eles têm certeza se terão benefícios com IA/ML em um caso de uso específico.
Do outro lado, observamos os obstáculos em relação à confiança. Um deles é a inabilidade dos usuários de dizer se os insights baseados em AIOps estão precisos. Os usuários provavelmente nem sabem o nível de abrangência da análise, as informações usadas, como os algoritmos funcionam, como se chega a conclusões ou se as conclusões são relevantes para a investigação em curso. Essa desinformação resulta em uma falta de confiança geral nos sistemas AIOps de caixa preta. Em alguns casos, as pressões ou as diretrizes organizacionais motivadas pela falta de confiança podem também apresentar barreiras à adoção da AIOps.
Nossa experiência mostrou que a melhor maneira de a AIOps fornecer seu valor é através da adoção lenta e estável. Primeiro, identificamos casos de uso específicos, comprovados e testados com o tempo para iniciar a adoção da AIOps como prova de conceito (POC). Em seguida, habilitamos a funcionalidade de AIOps em uma parte menor da implantação e, ao mesmo tempo, validamos e socializamos os benefícios e os resultados em cada etapa. Depois de ver alguns resultados de sucesso, habilitamos em etapas mais funcionalidades de AIOps direcionando tudo para os ambientes de produção. Esse caminho de implantação deliberado alivia algumas dificuldades típicas associadas à implantação de nova tecnologia que podem de alguma outra forma segurar a adoção ampla da AIOps.
Testar e comprovar a eficácia de uma tecnologia em um laboratório pequeno ou em um ambiente sem produção e medir e exibir os resultados para a gerência pode ajudar a aumentar a confiança e a conseguir a adesão antes da implantação da AIOps em um ambiente real de produção. Esse esquema de testes pode revelar outras falhas e requisitos; por exemplo, dados ausentes ou inconsistentes, cobertura deficiente ou armazenamento ou computação insuficiente. À medida que você implanta a AIOps na produção, veja se a sua solução de observability pode redimensionar os recursos de forma apropriada e lidar com as cargas de trabalho da sua empresa. Determinados recursos de AIOps que funcionam bem em laboratório ou em ambientes de POC podem ter dificuldades para manter requisitos em grande escala geralmente encontrados nos ambientes de produção.
Como a observability pode aproveitar com mais profundidade os recursos de IA e machine learning além das definições tradicionais da AIOps?
Tudo isso começa com os dados. Quanto mais abrangentes e abundantes forem os dados à disposição para análise, mais ações poderão ser realizadas com eles por meio da aplicação de tecnologias de IA/ML. A aplicação avançada de IA/ML pode ajudar a impulsionar casos de uso adicionais, como a extração de insights comerciais, a obtenção de indicadores preditivos ou importantes em vários sinais ou a definição e a implantação de IA/ML completamente personalizada quando a necessidade surgir.
Um exemplo de uso de IA/ML além da AIOps tradicional é o processamento de linguagem natural (NLP). A NLP ajuda na categorização e na classificação dos dados textuais. A NLP é útil para casos de uso como a análise de sentimentos, pois ajuda a medir o sentimento do usuário associado a eventos, por exemplo, o rollout de uma nova aplicação ou atualizações importantes de recursos, o que complementa e aprimora a observability.
Em uma solução adaptada a requisitos específicos e personalizados da empresa, as equipes de TI podem resolver usar seus próprios esquemas de modelagem de ML para criar, treinar, testar e implantar os dados na produção. A saída resultante desses modelos pode ser visualizada nos dashboards customizados, permitindo que as organizações de TI atendam às necessidades especiais, únicas ou específicas que não sejam cobertas pelos recursos das soluções prontas para uso.
Com quais casos de uso e tendências as AIOps poderão trabalhar no futuro?
À medida que os dados seguir em sua jornada, partindo do ponto de coleta, seguindo pela persistência (equilibrando disponibilidade de dados e desempenho com TCO) e pela analítica até chegar à visualização e à remediação, a AIOps continuará a ocupar um papel importante nesse caminho.
Conforme os volumes de dados forem aumentando, a analítica assistida por IA durante a coleta de dados ajudará a determinar quais dados são mais significativos para essa fase de coleta e análise. Os algoritmos de IA/ML também ajudam na movimentação da coleta, pois resumem os dados no ponto da coleta ou próximo a ele, distribuindo a inteligência de IA e reduzindo o requisito para centralizar todas as analíticas. Os esquemas de classificação e categorização decidem de forma dinâmica se os dados de entrada estão sendo enviados para as camadas warm ou cold de armazenamento, o que otimiza o TCO. A analítica age de maneira independente nos vários sinais e dados, detectando comportamentos anômalos, e, em seguida, isolando a causa raiz. E, à medida que a confiança do cliente aumentar na remediação automática, esta passará a agir autonomamente para mais casos de uso e cenários. Os sistemas de observability começam a formar loops mais fechados, ou seja, fazem coleta, armazenamento e análise de dados, além de detectar e remediar mais incidentes automaticamente com cada vez menos intervenção humana.
A importância da AIOps para as equipes de DevOps no mundo atual nativo na nuvem
Assim como acontece com muitas tecnologias mais novas, a definição de AIOps e seus benefícios continua a evoluir. Ao incluir a AIOps em sua estratégia de observability, você contribui em parte para a resposta natural de sempre aumentar o volume de dados, a complexidade e o ritmo da mudança. E, quando bem implementada, a AIOps pode impulsionar de forma significativa o valor de seus negócios.
Acompanhe nossos posts no blog para mergulhar nos detalhes dos casos de uso comuns de AIOps e assim promover o aprimoramento e as eficiências.