Scoring monitor quality: a machine learning approach

DSpace Repository

A- A A+

Scoring monitor quality: a machine learning approach

Show full item record

Title: Scoring monitor quality: a machine learning approach
Author: Andrade, Guilherme Mertens de
Abstract: A Datadog, uma plataforma líder de observabilidade B2B Software-as-a-Service (SaaS) cofundada por dois ex-alunos da CentraleSupélec, fornece aos desenvolvedores ferramentas críticas para monitoramento, análise e segurança. Dentro de sua organização de Alerting (Alertas), nossa equipe é responsável por um recurso central: os monitores, que permitem aos usuários rastrear métricas, logs e outras telemetrias, recebendo notificações quando limiares predefinidos são ultrapassados. O principal desafio abordado durante este estágio foi a qualidade não mensurada dos monitores configurados pelos usuários. Sem orientação ou métricas de qualidade, os usuários frequentemente criam monitores subótimos (por exemplo, calculando a média da latência em vez de usar percentis como o p90) ou definem limiares mal calibrados. Isso leva a consequências negativas significativas: fadiga de alertas devido a excessivos falsos positivos, alertas críticos sendo ignorados e lacunas de observabilidade quando os usuários desativam monitores ruidosos. Esses problemas degradam a experiência do usuário e aumentam os riscos operacionais para os clientes. A missão consistiu em definir, medir e pontuar a qualidade de um monitor. O problema inicial era ambíguo, sendo a dificuldade central a completa ausência de rótulos de referência (ground truth) para treinar um modelo supervisionado. A abordagem escolhida envolveu alavancar o conhecimento de domínio para estabelecer uma definição clara de qualidade de monitor e empregar técnicas de supervisão fraca (weak supervision) para gerar rótulos programaticamente. Esse processo culminou no desenvolvimento de um modelo de aprendizado de máquina que atribui uma pontuação de qualidade de 0 a 1 para cada monitor. De forma crítica, o modelo também fornece uma razão explicável quando um monitor é sinalizado como sendo de baixa qualidade. A implantação inicial deste modelo revelou que aproximadamente 30% de todos os monitores ativos poderiam ser classificados como "baixa qualidade", quantificando a escala do problema e destacando um potencial significativo para melhorias em todo o sistema. Este projeto entrega valor imediato ao permitir a criação de ferramentas para ajudar os usuários a melhorar suas configurações de monitoramento. Além disso, serve como um componente fundamental para um novo conjunto de recursos de alertas inteligentes, como recomendações automatizadas de monitores e a detecção de lacunas de monitoramento. Este trabalho ajudou a catalisar a formação de uma função dedicada de ciência de dados dentro da organização de Alerting, abrindo caminho para futuras inovações de produtos baseadas em dados.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Controle e Automação.
URI: https://repositorio.ufsc.br/handle/123456789/271031
Date: 2025-10-23


Files in this item

Files Size Format View
TCC.pdf 3.026Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar