Abstract:
|
Atualmente enfrentamos diversos problemas relacionados à sobrecarga de informações,
principalmente no âmbito político. Diante dessa situação, estamos em busca de uma
solução que facilite a identificação de pessoas, cargos políticos, locais e eventos mencionados
nos textos, a fim de filtrar e compreender melhor os acontecimentos. Nesse contexto, é
proposto realizar análises utilizando o BERTimbau, uma versão em português do modelo
BERT, aplicado a dados coletados por meio de web scraping, com o parâmetro "política
Brasil". Nosso objetivo é avaliar a precisão da inferência de Reconhecimento de Entidades
Nomeadas (NER) em um cenário seletivo, dividido em cinco classes: PESSOA/CARGO,
ABSTRAÇÃO/IDEIA, ACONTECIMENTO, LOCAL/HUMANO e FÍSICO/REGIÃO.
Além disso, pretendemos comparar a precisão entre fontes de dados do Twitter e da
Wikipedia. Para validar nossa abordagem, adotamos dois métodos distintos, o primeiro
consiste em uma validação manual, no qual analisamos individualmente a saída do modelo
BERTimbau para a classe "PESSOA/CARGO", gerando gráficos que demonstram a
precisão dos resultados obtidos; O segundo método envolve o uso de scripts de validação,
que podem ser aplicados posteriormente, para validar uma grande quantidade de dados
de forma automatizada. O primeiro método apresenta uma precisão maior, enquanto o
segundo método oferece perspectivas promissoras para validações em escala. Com base
nas análises e nas precisões obtidas, foi possível verificar a eficiência do modelo BERT
PolREN no que diz respeito à resolução do problema identificado. |