Explorando a modelagem de tópicos em textos curtos de mídias sociais: uma análise comparativa de algoritmos

DSpace Repository

A- A A+

Explorando a modelagem de tópicos em textos curtos de mídias sociais: uma análise comparativa de algoritmos

Show full item record

Title: Explorando a modelagem de tópicos em textos curtos de mídias sociais: uma análise comparativa de algoritmos
Author: Santos, Ian Macedo Maiwald
Abstract: Diariamente, muitos textos são publicados em massa nas mídias sociais. A compreensão dos temas e padrões nessas discussões é crucial para contextos como grandes eventos esportivos, desastres naturais ou eleições. Para esses cenários, a modelagem de tópicos é uma técnica de Processamento de Linguagem Natural que identifica os tópicos mais relevantes em uma coleção de textos. No entanto, para textos curtos, como os das mídias sociais, é muito comum o uso de técnicas inadequadas, que obtêm resultados com prejuízos devido à natureza reduzida desses textos. À vista disso, este trabalho avaliou o desempenho de algoritmos de modelagem de tópicos de quatro categorias: Tradicionais, baseados em DMM, baseados em autoagregação e baseados em coocorrência global. Para a análise, foram utilizados textos reais, publicados por usuários de mídias sociais. Os desempenhos dos modelos foram avaliados com o auxílio de métricas de qualidade, identificadas na bibliografia. Para isso, foram mensurados critérios de qualidade dos tópicos gerados pelos modelos, tais como a capacidade de generalização dos modelos, a semelhança dos tópicos, e a coerência das palavras que formam cada tópico. Os resultados mostraram que a categoria de algoritmos Tradicionais tiveram as piores capacidades de generalização, e também os menores desempenhos de distância, divergência e coerência nos tópicos. Com isso, fica evidente a incapacidade desses algoritmos em se adequarem aos textos curtos. Em alguns casos específicos, os modelos Tradicionais geraram tópicos com alguma coesão entre as palavras, porém ficou evidente o prejuízo nos produtos. Além disso, observou-se que cada técnica de modelagem possui um uso mais adequado conforme o propósito da análise que se busca realizar no corpus. Para uma análise voltada às nuances de um tema principal, os algoritmos baseados em DMM mostraram o maior potencial. Com distância e divergência mais baixas que a média, e coerências razoáveis, essa categoria mostrou resultados alinhados a uma análise de subtemas. Por outro lado, para análises focadas na exploração e identificação de temas distintos no conjunto de dados, o algoritmo BTM se destacou sozinho mostrando valores acima da média na Distância, Divergência, e Coerências. Ele gerou tópicos bem separados, que forneceram ideias mais claras e úteis. Além desses dois polos, as categorias de algoritmos baseados em Coocorrência global e de Autoagregação se mostraram mais equilibradas, sem apresentarem tendências muito evidentes para uma Análise de Subtemas, ou para uma Análise Exploratória.Abstract: Daily, many texts are mass published on social media platforms. Understanding the themes and patterns in these discussions is crucial for contexts such as sporting events, natural disasters or elections. In these scenarios, topic modeling comes as a Natural Language Processing technique that identifies the most relevant topics in a collection of texts. However, for short texts, such as those on social media, inappropriate techniques are very commonly used, which presents results with losses due to the reduced nature of these texts. In view of this, this study evaluated the performance of topic modeling algorithms from four categories: Traditional, DMM-based, Self-Aggregation-based and Global Co-occurrence-based. For the analysis, real texts published by social media users were used. The performance of the models were evaluated with the help of quality metrics, identified in the literature. For this, quality criteria of the topics generated by the models were measured, such as the generalization capacity of the models, the similarity of the topics, and the coherence of the words that form each topic. The results showed that the category of Traditional algorithms had the worst generalization capabilities, and also the lowest performances of distance, divergence and coherence in the topics. With this, it is evident the inability of these algorithms to adapt to short texts. In some specific cases, the Traditional models generated topics with some cohesion between the words, but the loss in the final products was evident. In addition, it was observed that each modeling technique has a more appropriate use according to the purpose of the analysis that is sought in the corpus. For an analysis focused on the nuances of a main theme, DMM-based algorithms showed the greatest potential. With lower than average distance and divergence, and reasonable coherences, this category showed results aligned with an analysis of sub-themes. On the other hand, for analyses focused on exploring and identifying distinct themes in the dataset, the BTM algorithm stood out alone showing above average values in Distance, Divergence, and Coherences. It generated well-separated topics, which provided clearer and more useful insights. Besides these two poles, the categories of algorithms based on Global Cooccurrence and Self-Aggregation were more balanced, without showing much evident tendencies for a Subtheme Analysis, or for an Exploratory Analysis.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2023.
URI: https://repositorio.ufsc.br/handle/123456789/253376
Date: 2023


Files in this item

Files Size Format View
PGCC1242-D.pdf 3.916Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar