|
Abstract:
|
A Datadog, uma plataforma líder de observabilidade B2B Software-as-a-Service (SaaS)
cofundada por dois ex-alunos da CentraleSupélec, fornece aos desenvolvedores ferramentas críticas para monitoramento, análise e segurança. Dentro de sua organização
de Alerting (Alertas), nossa equipe é responsável por um recurso central: os monitores,
que permitem aos usuários rastrear métricas, logs e outras telemetrias, recebendo
notificações quando limiares predefinidos são ultrapassados.
O principal desafio abordado durante este estágio foi a qualidade não mensurada dos
monitores configurados pelos usuários. Sem orientação ou métricas de qualidade, os
usuários frequentemente criam monitores subótimos (por exemplo, calculando a média
da latência em vez de usar percentis como o p90) ou definem limiares mal calibrados. Isso leva a consequências negativas significativas: fadiga de alertas devido a
excessivos falsos positivos, alertas críticos sendo ignorados e lacunas de observabilidade quando os usuários desativam monitores ruidosos. Esses problemas degradam
a experiência do usuário e aumentam os riscos operacionais para os clientes.
A missão consistiu em definir, medir e pontuar a qualidade de um monitor. O problema
inicial era ambíguo, sendo a dificuldade central a completa ausência de rótulos de referência (ground truth) para treinar um modelo supervisionado. A abordagem escolhida
envolveu alavancar o conhecimento de domínio para estabelecer uma definição clara
de qualidade de monitor e empregar técnicas de supervisão fraca (weak supervision)
para gerar rótulos programaticamente.
Esse processo culminou no desenvolvimento de um modelo de aprendizado de máquina que atribui uma pontuação de qualidade de 0 a 1 para cada monitor. De forma
crítica, o modelo também fornece uma razão explicável quando um monitor é sinalizado como sendo de baixa qualidade. A implantação inicial deste modelo revelou que
aproximadamente 30% de todos os monitores ativos poderiam ser classificados como
"baixa qualidade", quantificando a escala do problema e destacando um potencial
significativo para melhorias em todo o sistema.
Este projeto entrega valor imediato ao permitir a criação de ferramentas para ajudar
os usuários a melhorar suas configurações de monitoramento. Além disso, serve como
um componente fundamental para um novo conjunto de recursos de alertas inteligentes, como recomendações automatizadas de monitores e a detecção de lacunas de
monitoramento. Este trabalho ajudou a catalisar a formação de uma função dedicada
de ciência de dados dentro da organização de Alerting, abrindo caminho para futuras
inovações de produtos baseadas em dados. |