Como o aprendizado de máquina pode apurar a transparência dos dados públicos?
Author:
Silva, Pedro Teodoro Becker da
Abstract:
A filtragem e organização das publicações no Diário Oficial dos Municípios de Santa Catarina (DOMSC) são imprescindíveis para o acesso e análise dos dados públicos. Entretanto, a classificação incorreta de publicações na categoria 'Licitações' é um problema recorrente. Essa imprecisão prejudica a organização do canal, dificulta a manipulação dos dados e pode levar à perda de informações públicas. Diante dessa problemática, o objetivo deste projeto é desenvolver um classificador binário capaz de prever se uma publicação pertence à classe 'licitação' ou 'não-licitação' através do seu campo texto. Para isso, foi utilizado o modelo de aprendizado de máquina Random Forest como classificador e o algoritmo TF-IDF como técnica de processamento de texto. Este modelo exige um treinamento supervisionado prévio, para o qual foi construído um arquivo texto base com 179 exemplares de publicações categorizadas no DOMSC como 'licitação'. Neste arquivo, foram corrigidas as classes de cada exemplar, totalizando 100 exemplos da classe 'licitação' e 79 exemplos da classe 'não-licitação'. Após implementação, a precisão do modelo foi avaliada através de múltiplos testes com a variação de seus hiperparâmetros. Dessa maneira, a maior precisão registrada foi de 72.2%, enquanto o modelo tende a convergir consistentemente para 63.3%. Embora a precisão não tenha atingido as expectativas, os testes revelaram o potencial de aprendizado do modelo. Portanto, é evidente que, através de uma metodologia de processamento de texto mais complexa e um dataset mais extenso, este modelo é capaz de superar estes resultados.
Description:
Seminário de Iniciação Científica e Tecnológica.
Universidade Federal de Santa Catarina.
Centro Tecnológico.
Departamento de Informática e Estatística.