OPTIC: a holistic solution for entity linking of social media posts

DSpace Repository

A- A A+

OPTIC: a holistic solution for entity linking of social media posts

Show simple item record

dc.contributor Universidade Federal de Santa Catarina
dc.contributor.advisor Fileto, Renato
dc.contributor.author Oliveira, Italo Lopes
dc.date.accessioned 2021-11-11T19:23:34Z
dc.date.available 2021-11-11T19:23:34Z
dc.date.issued 2021
dc.identifier.other 373453
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/229755
dc.description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.
dc.description.abstract Ligação de Entidade (LE) aprimora aplicações de Processamento de Linguagem Natural (PLN) ligando-se menções à entidades encontradas em textos brutos à suas descrições semânticas em algum dado ou base de conhecimento. Este aprimoramento é ainda mais relevante e desafiador em dados de mídias sociais, tais como postagens de microblogs, devido sua natureza informal e contexto limitado se comparado com textos mais longos e formais. Abordagens LE atuais da literatura que visam postagens de microblogs focam na expansão do conteúdo da postagem. Esta expansão têm sido realizada de diversas maneiras, como, por exemplo, considerando postagens similares ou relacionadas, ou usando dados pessoais do autor da postagem, além de dados espaço-temporais anexados à postagem de microblog. Entretanto, tais abordagens podem ser muito invasivas, comprometendo a privacidade do usuário. Além disso, elas não exploram outros tipos de contexto, os quais podem fornecer uma visão mais holística dos dados e do processo de LE. A exploração de diversos tipos de contexto aliado com técnicas de aprendizado de máquina podem ajudar a contornar a limitação das abordagens existentes e produzir melhores resultados. Esta tese primeiro fornece uma revisão compreensiva da literatura sobre LE holístico e então propõe OPTIC, uma abordagem de rede neural profunda para LE coletivo de postagens de microblog utilizando embeddings de palavra e conhecimento. OPTIC explora embeddings de grafos de conhecimento e de texto treinados em conjunto. Estes embeddings podem fornecer informações contextuais mais holísticas e consolidadas do que embeddings de conhecimento e textos treinados separadamente, e seu uso para alavancar abordagens LE ainda não foi suficientemente investigado. OPTIC é capaz de lidar tanto com LE coletivo como não-coletivo utilizando redes neural profundas alimentadas com embeddings de palavras relevantes e entidades candidatas para menções reconhecidas em postagens de microblog. FastText é utilizado para treinar em conjunto embeddings de conhecimento e palavras de modo que eles podem ser consistentemente utilizados juntos em único espaço vetorial integrado. As redes neurais profundas propostas para o OPTIC são baseadas na arquitetura de rede neural Memória de Longa e Curta duração. Foram propostas uma arquitetura de redes neurais profundas para LE não-coletiva e duas para LE coletiva. Diferentes números de células e de camadas escondidas foram considerados nos experimentos. Cada arquitetura foi avaliada no sistema de benchmark GERBIL com a sua melhor combinação de parâmetros, de modo a comparar o seu desempenho com o de abordagens do estado da arte. OPTIC supera a maioria das abordagens no conjunto de dados NEEL 2016 (provavelmente devido ao fato de ser treinado neste conjunto de dados), permanece competitivo no NEEL2015, e é levemente inferior no NEEL2014. Não é observado nenhuma diferença relevante entre as propostas coletivas e não-coletiva. Portanto, é recomendado o uso do LE não-coletivo devido a facilidade na construção do conjunto de treinamento.
dc.description.abstract Abstract: Entity Linking (EL) empowers Natural Language Processing (NLP) applications by linking entity mentions found in raw text to their semantic descriptions in some data or knowledge base. This empowerment is even more relevant and challenging for social media data, such as microblog posts, due to their informal nature and limited context, compared to more formal longer text. Current EL approaches from the literature aiming at microblog posts focus on the expansion of the post context. This expansion has been done in several ways, like, for example, considering related/similar posts, or using personal data of the post author, besides spatial-temporal data attached to the microblog post. However, such approaches can be too invasive, compromising user privacy. Moreover, they do not exploit other context types, which may provide a more holistic view of the data and the EL process. The exploitation of several types of context allied with machine learning techniques may help circumvent the limitation of the existing approaches and provide better results. This thesis first provides a comprehensive review of the literature about holistic EL, and then proposes OPTIC, a Deep Neural Network (DNN) approach for collective EL of microblog posts using knowledge and word embeddings. OPTIC exploits jointly trained embeddings of knowledge graphs and text. These embeddings can provide more holistic and consolidated contextual information than separate embeddings of text and knowledge, and their use for leveraging EL has not been sufficiently investigated yet. OPTIC is capable to tackle both non-collective and collective EL using DNNs fed with embeddings of relevant words and candidate entities for mentions recognized in microblog posts. FastText is used to jointly train embeddings of words and knowledge so that they can be consistently handled together in a single integrated embedded space. The DNNs proposed for OPTIC are mostly based on the bidirectional Long Short-Term Memory neural network architecture. We propose one DNN architecture for non-collective EL and two for collective EL. We tested different numbers of hidden cells and hidden layers in our experiments. Each architecture was assessed in the GERBIL benchmark system with its best combination of parameters to compare its performance with state-of-the-art approaches. OPTIC outperforms most approaches on the dataset NEEL2016 (probably because it was trained using its training set), stays competitive on NEEL2015, and has slightly inferior performance on NEEL2014. We did not observe any relevant difference between the results of our non-collective and collective EL proposals. Therefore, we recommend the use of the non-collective EL to ease training set building. en
dc.format.extent 97 p.| il., gráfs.
dc.language.iso eng
dc.subject.classification Computação
dc.subject.classification Processamento de linguagem natural (Computação)
dc.subject.classification Redes neurais (Computação)
dc.title OPTIC: a holistic solution for entity linking of social media posts
dc.type Tese (Doutorado)
dc.contributor.advisor-co Garcia, Luís Paulo Faina


Files in this item

Files Size Format View
PGCC1203-T.pdf 12.85Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar