Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
Show full item record
Title:
|
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
Author:
|
Maciel, Daniel
|
Abstract:
|
No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras.
No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings
para palavras novas. |
Description:
|
TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação. |
URI:
|
https://repositorio.ufsc.br/handle/123456789/238267
|
Date:
|
2022-07-19 |
Files in this item
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar