Aprendizado de máquina da Elastic melhora a experiência do usuário da GoDaddy
Este post é um resumo de uma palestra do Elastic{ON} 2018. Quer saber sobre outras palestras como esta? Veja o arquivo da conferência ou descubra quando a Elastic{ON} Tour estará numa cidade perto de você.
A GoDaddy é conhecida por hospedagem web e gestão de domínios, como todo mundo que assistiu ao Super Bowl nos últimos anos já sabe. Mas, com mais de 17 milhões de clientes, 75 milhões de domínios e 10 milhões de sites hospedados, eles também sabem muito de big data. Manter os sites em perfeito funcionamento requer insights sobre cada parte da infraestrutura, seja no nível de patch do servidor virtual, em falhas temporárias da rede ou ataques maliciosos. Com mais de 200 mil mensagens chegando a cada segundo (consultas DNS, logs do sistema, eventos de negócios e muito mais), a situação pode ser bem complicada, mas é aí que chega o Elastic Stack com sua velocidade em escala.
A Go Daddy começou com a Elasticsearch como a maioria das empresas que usam softwares open source. Diversas equipes da empresa configuraram seus próprios clusters para cuidar de suas necessidades específicas. Deu certo, mas esse modelo de configuração não gerenciada resultou em centenas de clusters sendo executados em diferentes versões da Elasticsearch que analisam dados em silo. A empresa sabia que existia um jeito melhor de fazer isso e formou uma equipe para gerenciar a implantação da Elasticsearch em 2014. A equipe hoje gerencia mais de 60 clusters da Elasticsearch por mais de 700 contêineres Docker, com feeds chegando de equipes da empresa toda. Os clusters compõem mais de 270 TB de dados do ambiente (11PB) HDFS.
Um dos primeiros casos de uso que a equipe teve foi gerenciar a conformidade de patches por todo o ecossistema. Em um mundo antes do Beats em 2014, a GoDaddy desenvolveu agentes para Windows e Linux (similares ao Auditbeat e ao Winlogbeat) para enviar dados do sistema para a Elasticsearch. Com esses agentes instalados em todos os servidores (físicos e virtuais), a GoDaddy conseguiu insights valiosos sobre os níveis de patching e conformidade em toda a infraestrutura. Além disso, ao utilizar diferentes painéis e visualizações dentro do Kibana, foi possível oferecer de forma fácil informações granulares do patch para os admins e engenheiros, além de relatórios de alto nível para os executivos, tudo isso acessando os mesmos dados centralizados para que todos estivessem na mesma página.
Manter os níveis de patch do servidor é importante para manter o fluxo de tráfego do site, e é esse fluxo que nos permite manter os usuários envolvidos. Quando um site carrega lentamente, o usuário vai para outro lugar. Assim, com a experiência dos milhões de clientes em mente, a GoDaddy soube que precisava monitorar como os data centers estavam se saindo e como sua performance impactava os visitantes. Eles já tinham todos os dados necessários, já que todos os componentes de seus sistemas geravam registros, mas precisavam de uma forma de visualizar o todo.
Detecção de anomalia através de registros centralizados com aprendizado de máquina
A GoDaddy precisava centralizar e analisar diversos conjuntos de dados de performance e envolvimento, e o Elastic Stack foi a solução. Ao enviar dados do netflow, sFlow, RUM (gestão de usuário real), de relação de preering e de encaminhamento para o Elasticsearch, eles conseguiram uma visão muito mais detalhada da experiência do usuário e do desempenho do sistema. Um nível de detalhes que só pode ser visto ao analisar todas as fontes de dados diferentes de uma vez. Desde então, a GoDaddy começou a levar os dados ainda mais longe com a ajuda dos recursos de aprendizado de máquina da Elastic.
Ter acesso centralizado a montanhas de dados do sistema é ótimo, mas monitorar os problemas pode ser difícil. A GoDaddy monitora cada clique de usuário e interação no site, mas com milhões de páginas operando no mundo todo, não tem como uma equipe de seres humanos acompanhar todos esses dados. Felizmente, detectar anomalias é muito fácil com os recursos de aprendizado de máquina da Elastic. Ao trabalhar com especialistas da Elastic, a GoDaddy conseguiu implementar trabalhos de aprendizado de máquina com foco em RUM que facilitaram muito a detecção de anomalias.
“Ao analisar o esforço total para um projeto desses, pense na equipe da Elastic. Eles são muito prestativos. Nossa parceria foi muito próxima, tivemos muitas reuniões, um canal de comunicação aberto para todas as atualizações. Quando encontrarem um percalço, chamem a Elastic. É nisso que eles são bons.” — Felix Gorodishter, Arquiteto Principal, GoDaddy
sAo definir um limite para os tempos e parâmetros de carregamento da página para o tráfego, a equipe da GoDaddy deixa os recursos de aprendizado de máquina da Elastic cuidarem do trabalho de aprender o que é normal e o que é anomalia e depois informar qualquer problema que haja. O aprendizado de máquina resolve o problema para que a GoDaddy possa focar no que realmente importa.
Saiba como a GoDaddy está aproveitando os recursos de aprendizado de máquina da Elastic para monitorar o desempenho de sites hospedados assistindo a Stories from the Trenches at GoDaddy: How Big Data Insights Equal Big Money do Elastic{ON} 2018. Você também verá um pouco sobre formas interessantes de se usar o aprendizado de máquina para monitorar KPIs de negócio relacionados a adoção de produtos e saberá as lições que aprendemos no caminho.