Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa

DSpace Repository

A- A A+

Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Ramos, Vinicius Faria Culmant
dc.contributor.author Môro, Diefferson Koderer
dc.date.accessioned 2018-12-05T22:27:18Z
dc.date.available 2018-12-05T22:27:18Z
dc.date.issued 2018-11-29
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/191926
dc.description TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e Comunicação pt_BR
dc.description.abstract Atualmente existe um grande volume de documentos pessoais e oficias, que trafegam na internet em diversos formatos, tais como doc, pdf, txt, que podem ter seus conteúdos analisados computacionalmente e assim agilizar em diversos processos executados com tais informações. Desta forma faz-se necessário a existência de procedimentos para realizar a análise destes documentos, e uma das ferramentas para esta tarefa é o Reconhecimento de Entidades Nomeadas (REN). Este trabalho tem como objetivo realizar um estudo sobre a aplicação e resultados que se pode obter em documentos redigidos de acordo com a norma culta da língua portuguesa. Para tal estudou-se os conceitos fundamentais relacionados ao Processamento de Linguagem Natural (PLN) e o tratamento de documentos em formato PDF. Foi feito um estudo de algumas ferramentas e corpus existentes, para textos escritos em português. Utilizou-se o framework spaCy, juntamente com o corpus HAREM e alguns documentos oficiais. A automatização na detecção de entidades nomeadas e seus vínculos em documentos escritos em língua portuguesa, pode ser viável utilizando-se as ferramentas e bases de dados já existentes. Entretanto, a dificuldade ainda são grandes e resultados que podem ser melhorados, visto que a identificação correta dessas entidades ainda não superou os 90% de acurácia. pt_BR
dc.description.abstract Currently there is a large volume of personal and official documents, which circulate in internet in several formats, such as doc, pdf, txt, which can have their contents analyzed computationally and thus streamline in several processes executed with such information. In this way it is necessary to have procedures to perform the analysis of these documents, and one of the tools for this task is the Named Entities Recognition (NER). This task aims to conduct a study on the application and results that can be obtained in documents drafted according to the cultured norm of the Portuguese language. For that, we studied the fundamental concepts related to the Natural Language Processing (NLP) and the treatment of documents in PDF format. There was a study of some existing tools and corporations, for texts written in Portuguese. We used the spaCy framework, along with the HAREM corpus and some official documents. The automation in the detection of named entities and their links in documents written in Portuguese language can be viable using existing tools and databases. However, the difficulty is still great and results can be improved, since the correct identification of these entities hasn't yet exceeded 90% accuracy. pt_BR
dc.format.extent 38 pt_BR
dc.language.iso por pt_BR
dc.publisher Araranguá, SC pt_BR
dc.rights Open Access en
dc.subject Reconhecimento de Entidades Nomeadas pt_BR
dc.subject Língua Portuguesa pt_BR
dc.subject Processamento de Linguagem Natural pt_BR
dc.subject Aprendizado de Máquina pt_BR
dc.title Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View
tcc_diefferson_koderer_moro.pdf 884.5Kb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar