SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings

DSpace Repository

A- A A+

SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings

Show full item record

Title: SSP: a linguistic pattern mining approach for discourse analysis and information extraction in short texts using word embeddings
Author: Sorato, Danielly
Abstract: Postagens em microblogs, tais como tweets, frequentemente contêm opiniões e pensamentos de usuários sobre eventos, produtos, pessoas, entre outras possibilidades. Contudo, o uso de mídias sociais para propagar discursos de ódio, promover desinformação e manipular opiniões não são ocorrências incomuns. A análise de postagens problemáticas é crucial para entender, combater e desencorajar tais ações. Repetições de expressão, i.e. padrões de discurso, ocorrem na linguagem natural. Extrair fragmentos de texto com semântica recorrente podem levar à descoberta de padrões linguísticos usados em certos tipos de discurso textualmente expressos em postagens de microblogs. Nessa dissertação, esses padrões são usados no contexto de extração de informação, análise de discurso e classificação de texto.Através da abordagem aqui desenvolvida, chamada mineração de Padrões Semânticos Curtos (em inglês Short Semantic Patterns - SSP), é possível descobrir dinamicamente, bem como extrair, sequências de palavras que compartilham significado similar em relação à sua representação vetorial. O uso de vetores de palavras (word embeddings) permite a extração eficiente de padrões flexíveis, que não estão restritos à similaridade e ordem lexical. Primeiramente, os SSP são formalmente descritos e sua incidência é mostrada em tweets reais. Depois, a abordagem de mineração é aplicada para executar tarefas de Extração de Informação e Análise de Discurso em dois estudos de caso distintos, especificamente tweets da campanha presidencial de Donald Trump e de discurso de ódio. Por fim, os SSP extraídos no caso de discurso de ódio são usados como features para construir classificadores para detectar se um tweets contém discurso de ódio (classificação binária) e também para distinguir entre tweets contendo racismo, sexismo, ou conteúdo normal (classificação ternária). A análise das instâncias de SSP em relação aos tweets de Donald Trump evidenciaram que sua estratégia de campanha consistia em sistematicamente difamar a mídia e seus oponentes. As instâncias de SSP encontradas nos tweets contendo sexismo mostraram que um grande número de tweets sexistas com a introdução ?I'm not sexist but? e ? Call me sexist but?. Enquanto isso, instâncias do SSP encontradas em tweets sobre racismo revelaram uma proeminência de discursos contra a religião islâmica, entidades e organizações associadas.<br>Abstract : Microblog posts such as tweets frequently contain users opinions and thoughts about events, products, people, among other possibilities. However, the usage of social media to propagate hate speech, promote online disinformation and manipulation is not an uncommon occurrence. Analyzing such problematic social media posts is essential for understanding, fighting, and discouraging such actions. Repetition of discourses, i.e. speech patterns, occur in natural language. Extracting recurrent fragments of text which are semantically similar can lead to the discovery of linguistic patterns used in certain kinds of discourse. Therefore, we aim to use these patterns to encapsulate frequent discourses textually expressed in microblog posts. In this dissertation, we propose to exploit such linguistic patterns in the context of Information Extraction and Discourse Analysis. Though the technique developed in this work, called SSP (Short Semantic Pattern) mining, we are able to dynamically discover and extract sequences of words that share a similar thought in their word embedding representation. The use of word embeddings allows the efficient extraction of flexible patterns, which are not restricted to lexical and syntactic similarity. First, we formally describe our SSPs and show its incidence in real tweets. Then, we apply our technique to perform Information Extraction and Discourse Analysis in two case studies, namely Donald Trump's presidential campaign and hate speech tweets. Afterwards, we experiment using SSPs as features to build classifiers to detect if a tweet contains hate speech (binary classification) and to distinguish between sexism, racism and clean tweets (ternary classification). The analysis of SSP instances regarding Donald Trump's tweets showed that his campaign strategy consisted in systematically defaming the media and his opponents. The SSP instances encountered in tweets containing sexism have shown that a large number of sexist tweets with the introduction ?I'm not sexist but? and ?Call me sexist but?. Meanwhile, SSP instances found in tweets depicting racism revealed a prominence of discourses against the Islamic religion, associated entities and organizations.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2019.
URI: https://repositorio.ufsc.br/handle/123456789/214365
Date: 2019


Files in this item

Files Size Format View
PGCC1152-D.pdf 1.636Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar