Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Maciel, Daniel

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

DSpace Repository

A- A A+

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Show simple item record

dc.contributor	Universidade Federal de Santa Catarina	pt_BR
dc.contributor.advisor	Gonçalves, Alexandre Leopoldo
dc.contributor.author	Maciel, Daniel
dc.date.accessioned	2022-08-15T19:52:23Z
dc.date.available	2022-08-15T19:52:23Z
dc.date.issued	2022-07-19
dc.identifier.uri	https://repositorio.ufsc.br/handle/123456789/238267
dc.description	TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação.	pt_BR
dc.description.abstract	No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras. No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings para palavras novas.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Araranguá, SC	pt_BR
dc.rights	Open Access	en
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Embeddings	pt_BR
dc.subject	Aprendizado profundo	pt_BR
dc.title	Um método para obtenção de representações de palavras novas por meio da técnica de Embedding	pt_BR
dc.type	TCCgrad	pt_BR

Files in this item

Files	Size	Format	View
TCC_-_Daniel_Maciel_-_Final_assinado.pdf	1.059Mb	PDF	View/Open

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

DSpace Repository

Um método para obtenção de representações de palavras novas por meio da técnica de Embedding

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar