Mineração de padrões morfo-semânticos em textos literários com o BERT

Silveira Dias, Leandro

Mineração de padrões morfo-semânticos em textos literários com o BERT

DSpace Repository

A- A A+

Mineração de padrões morfo-semânticos em textos literários com o BERT

Show full item record

Title:	Mineração de padrões morfo-semânticos em textos literários com o BERT
Author:	Silveira Dias, Leandro
Abstract:	Grande parte da informação atualmente disponível está na forma de textos, em documentos digitais como livros, artigos de jornais e revistas, páginas Web e textos em mídias sociais. O tratamento manual desses textos é frequentemente inviável, devido ao grande volume de dados, tornando-se necessário o desenvolvimento de soluções automatizadas para diversas tarefas de processamento de texto em linguagem natural. A análise semântica automatizada de discursos em torno de tópicos de interesse em documentos textuais é um problema ainda em aberto, com diversas aplicações práticas, incluindo detecção de certos tipos de discurso (e.g. discurso de ódio) e classificação não supervisionada de textos com base em similaridades e padrões semânticos dos discursos neles encontrados. Este trabalho se propõe a desenvolver novas técnicas e algoritmos para minerar padrões morfo-semânticos de discursos centrados em tópicos do interesse de especialistas de domínio. Tais tópicos podem ser mencionadas nos textos literalmente (através das palavras que os definem) ou via léxicos que tenham semântica equivalente ou muito próxima a tais tópicos. A implementação do protótipo utiliza embeddings do BERTimbau, uma versão do modelo contextualizado de linguagem BERT pré-treinada para o português brasileiro atual, como meio de determinar similaridades semânticas entre palavras, que podem indicar tópicos de interesse ou expressar a semântica dos discursos em torno de tais tópicos. Ferramentas de Processamento de Linguagem Natural (PLN) existentes também são utilizadas para realizar tarefas como segmentação de sentenças, normalização de texto (e.g., tokenização, stemming) e classificação morfossintática de palavras (Part-Of-Speech - POS-tagging). Os algoritmos sendo desenvolvidos para minerar padrões morfo-semânticos em textos se apoiam nas funcionalidades dessas ferramentas, principalmente similaridade semântica entre embeddings contextualizados de palavras e compatibilidade de PoS-tags. A proposta está sendo desenvolvida e avaliada em um estudo de caso na área de literatura brasileira, em que especialistas de domínio fornecem os textos a analisar, indicam os tópicos de interesse e auxiliam na aferição dos resultados. Os resultados serão avaliados quantitativamente, em termos da distribuição das instâncias dos padrões minerados nas coleções de documentos e, na medida das possibilidades, comparação com o desempenho humano na identificação dos padrões e classificação dos textos.
Description:	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
URI:	https://repositorio.ufsc.br/handle/123456789/243399
Date:	2022-12-14

Files in this item

Files	Size	Format	View	Description
TCC_Leandro_S_Dias.pdf	1.977Mb	PDF	View/Open	trabalho de conclusão de curso

Mineração de padrões morfo-semânticos em textos literários com o BERT

DSpace Repository

Mineração de padrões morfo-semânticos em textos literários com o BERT

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar