|
Abstract:
|
O projeto teve como foco o desenvolvimento de um sistema automatizado para a coleta e ingestão de dados de licitações públicas, buscando aliar técnicas de ciência de dados à necessidade de transparência e fiscalização de gastos governamentais. A coleta de dados foi realizada através de web scraping , uma técnica de extração automatizada de informações de websites, enquanto a organização dos dados seguiu um modelo de pipeline de ingestão, um fluxo de trabalho projetado para processar, validar e garantir a qualidade dos dados. Essas tecnologias são essenciais para transformar dados públicos dispersos e não estruturados em informações acionáveis, com grande potencial de aplicação em jornalismo de dados, controle social e pesquisa acadêmica. Os dados de licitações públicas da plataforma e-Pública foram escolhidos como objeto de estudo por sua alta relevância para a sociedade e por representarem um desafio técnico significativo. Embora disponíveis publicamente, esses dados são apresentados de forma complexa e descentralizada entre os diversos portais municipais, tornando a análise manual em larga escala impraticável. A automação desse processo, portanto, é fundamental para viabilizar o monitoramento sistemático dos gastos públicos e promover a accountability. O método adotado para a coleta foi a construção de um web scraper com a biblioteca Playwright em Python, uma ferramenta robusta para automação de navegadores capaz de interagir com páginas dinâmicas e complexas. O scraper foi programado para navegar na estrutura dos portais, aplicar filtros de pesquisa por período e palavra-chave (com foco em "aquisição de medicamentos" para a prova de conceito) e extrair dezenas de campos de cada licitação. Para a ingestão, foi modelado um fluxo sequencial que inclui as etapas de Coleta, Divisão, Processamento, Verificação e Controle de Qualidade, garantindo que cada registro fosse formatado e validado antes do armazenamento final. Os resultados do projeto confirmaram a eficácia da abordagem, culminando na geração de um conjunto de dados estruturado e validado. O web scraper conseguiu superar os desafios da navegação em portais dinâmicos, extraindo com sucesso informações detalhadas que incluem o objeto da licitação, valores, datas, participantes e itens. O fluxo de ingestão, por sua vez, demonstrou ser um modelo eficiente para padronizar os dados extraídos, convertendo-os em um formato JSON limpo e consistente, pronto para análise. Em síntese, o trabalho comprovou que a automação da coleta e ingestão é uma estratégia viável e de alto impacto para o tratamento de dados públicos. A combinação do web scraper com o pipeline de ingestão mostrou-se uma solução robusta para transformar dados governamentais brutos em um ativo de informação valioso. Dessa forma, a pesquisa não apenas contribui com uma solução técnica para um desafio de ciência de dados, mas também reforça a importância da tecnologia como ferramenta para a transparência, o controle social e o fortalecimento da democracia. |