Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

DSpace Repository

A- A A+

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Gonçalves, Alexandre Leopoldo
dc.contributor.author Maciel, Daniel
dc.date.accessioned 2022-08-15T19:52:23Z
dc.date.available 2022-08-15T19:52:23Z
dc.date.issued 2022-07-19
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/238267
dc.description TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação. pt_BR
dc.description.abstract No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras. No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings para palavras novas. pt_BR
dc.language.iso por pt_BR
dc.publisher Araranguá, SC pt_BR
dc.rights Open Access en
dc.subject Processamento de linguagem natural pt_BR
dc.subject Embeddings pt_BR
dc.subject Aprendizado profundo pt_BR
dc.title Um método para obtenção de representações de palavras novas por meio da técnica de Embedding pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View
TCC_-_Daniel_Maciel_-_Final_assinado.pdf 1.059Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar