SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem

DSpace Repository

A- A A+

SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem

Show full item record

Title: SIDEAS: um arcabouço para detectar similaridade semântica de discursos usando desde análise estrutural até grandes modelos de linguagem
Author: Costa, Rita Carolina Alamino Borges da
Abstract: Textos presentes em plataformas digitais hoje em dia podem ter semelhanças de significado, cuja detecção automática é importante para aplicações como detecção de plágio e análise de movimentos sociais. Contudo, a tarefa de detectar similaridade entre discursos em textos, os quais podem transmitir ideias análogas usando construções léxicas e sintáticas diferentes, representa um desafio. Uma das abordagens encontradas na revisão da literatura é extrair termos relevantes das estruturas discursivas e, então, mensurar e/ou classificar a similaridade dos discursos com base na similaridade semântica de representações estruturais desses termos, tais como embeddings. Por outro lado, o uso de modelos de linguagem atuais para calcular e classificar similaridades discursivas em textos curtos permanece pouco explorado na literatura. Este trabalho investiga diferentes abordagens e a utilização de tecnologias atuais para medir e classificar similaridades semânticas de discursos. As soluções consideradas incluíram o cálculo de similaridade através de embeddings contextualizados de componentes estruturais dos discursos contra modelos de linguagem generativos de grande escala. Os resultados dos experimentais demonstram que o uso de inteligência artificial (LLMs) permite um desempenho superior em alguns casos em comparação com o uso de embeddings de palavras na comparação de componentes do discurso, fornecendo assim uma base comparativa para futuros estudos nesta área e aplicações.Abstract: Texts present in digital platforms today may exhibit semantic similarities, whose automated detection is crucial for applications such as plagiarism detection and social movement analysis. However, detecting discourse similarity between texts, which can convey analogous ideas using different lexical and syntactic constructions, presents a significant challenge. One of the approaches identified in the literature review involves extracting relevant terms from discourse structures and subsequently quantifying and/or classifying discourse similarity based on the semantic similarity of structural representations of these terms, such as embeddings. Conversely, the utilization of contemporary language models for computing and classifying discourse similarities in short texts remains underexplored in the literature. This work investigates various approaches and the application of current technologies for measuring and classifying semantic similarities in discourse. The considered solutions included similarity computation through contextualized embeddings of discourse structural components against large-scale generative language models. The experimental results demonstrate that using artificial intelligence (LLMs) enables superior performance in some instances compared to using word embeddings in comparing discourse components, thus providing a comparative foundation for future studies in this domain and applications.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
URI: https://repositorio.ufsc.br/handle/123456789/264786
Date: 2025


Files in this item

Files Size Format View
PGCC1293-D.pdf 1.238Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar