Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

DSpace Repository

A- A A+

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Show full item record

Title: Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
Author: Maciel, Daniel
Abstract: No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras. No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings para palavras novas.
Description: TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/238267
Date: 2022-07-19


Files in this item

Files Size Format View
TCC_-_Daniel_Maciel_-_Final_assinado.pdf 1.059Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar