Um método para obtenção de representações de palavras novas por meio da técnica de Embedding
Show simple item record
dc.contributor |
Universidade Federal de Santa Catarina |
pt_BR |
dc.contributor.advisor |
Gonçalves, Alexandre Leopoldo |
|
dc.contributor.author |
Maciel, Daniel |
|
dc.date.accessioned |
2022-08-15T19:52:23Z |
|
dc.date.available |
2022-08-15T19:52:23Z |
|
dc.date.issued |
2022-07-19 |
|
dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/238267 |
|
dc.description |
TCC(graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Engenharia da Computação. |
pt_BR |
dc.description.abstract |
No processamento de linguagem natural modelos de aprendizado profundo treinados em grandes corpus de textos apresentam bons resultados na resolução de tarefas que envolvam o processamento de sentenças contextualizadas. Todavia, dada a dinamicidade das línguas e o constante nascimento de neologismos e novas palavras, estes modelos pré-treinados tendem a ficar rapidamente obsoletos. Isto ocorre visto que treinamentos genéricos não apresentam bons resultados em contextos específicos e são incapazes de gerar representações distribuídas para palavras novas. Neste contexto, este trabalho apresenta um método para inclusão de novas palavras no dicionário de modelos pré-treinados, bem como o ajuste fino do modelo com textos em domínio específico para ajustar representações distribuídas e embeddings de novas palavras.
No desenvolvimento deste objetivo foi utilizado o modelo BERT® base, disponível na biblioteca transformers, e corpus de textos de domínio específico extraídos da base de artigos Scopus®. Considerando a necessidade de aparato computacional robusto, exigido no treinamento de modelos de processamento de linguagem natural, foram explorados os recursos da plataforma como serviço, Google Colab®. Para observar o processo de evolução da linguagem, os corpus de textos foram divididos em séries temporais e os resultados de cada série foram comparados utilizando a similaridade do cosseno. Na avaliação do método, foi utilizada a palavra voip que obteve ao final dos ajustes finos uma representação distribuída aproximada de telecommunications e signalling, que representam algumas das principais palavras com significância em relação à da palavra de estudo. Deste modo, foi possível concluir que o método proposto oferece uma maneira eficiente e acessível para adaptar modelos pré-treinados e gerar embeddings
para palavras novas. |
pt_BR |
dc.language.iso |
por |
pt_BR |
dc.publisher |
Araranguá, SC |
pt_BR |
dc.rights |
Open Access |
en |
dc.subject |
Processamento de linguagem natural |
pt_BR |
dc.subject |
Embeddings |
pt_BR |
dc.subject |
Aprendizado profundo |
pt_BR |
dc.title |
Um método para obtenção de representações de palavras novas por meio da técnica de Embedding |
pt_BR |
dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar