Title: | Uma abordagem semântica para analisar menções de interesse em um domínio em clipes textuais |
Author: | Pereira Júnior, Vilmar César |
Abstract: |
Clipes textuais (Textual Clips - TCs), tais como postagens em mídias sociais e uma variedade de outros textos livres possivelmente georreferenciados, podem conter muitas informações. No entanto, a análise adequada de um TC requer a captura da semântica do que é mencionado em seu conteúdo, filtrando o que é de interesse para determinados domínios de aplicação e estruturando as informações extraídas de maneira adequada para análise. Este trabalho propõe uma abordagem para analisar incidências de menções de interesse para domínios de aplicação específicos em TCs, a qual combina as tecnologias de Web Se- mântica e Business Intelligence (BI). Esta abordagem é suportada por um processo de Extração, Transformação e Carga (ETL) de dados que anota semanticamente TCs com dados abertos ligados (Linked Open Data - LOD), filtra recursos de interesse nas anotações usando pontes definidas neste trabalho entre classes LOD e uma ontologia de domínio de alto nível, aprimora essas pontes e adapta hierarquias existentes de classes e instâncias de LOD para servir como dimensões para análise de informação. A abordagem foi validada em um estudo de caso que analisa menções a itens de interesse para negócios (business) em tweets. Resultados experimentais mostram que uma quantidade considerável de tweets recentemente enviados do Brasil têm ao menos uma menção de interesse para o domínio de negócios e que a abordagem proposta permite análises que não são suportadas pelos atuais sistemas de BI para dados de mídias sociais. Abstract : Textual clips, such as social media posts and a variety of other time- stamped and sometimes georreferenced free text, can carry lots of infor- mation. However, their proper analysis requires capturing the seman- tics of what is mentioned in their contents, filtering what is of interest for particular application domains, and structuring the extracted in- formation in a suitable way for analysis. In this work, we propose an approach to analyze the incidences of mentions of interest for particular application domains in textual clips, by combining Semantic Web and Business Intelligence (BI) technologies. This approach is supported by a data Extraction, Transformation and Loading (ETL) process that semantically annotates textual clips with Linked Open Data (LOD), fil- ters LOD resources of interest in the annotations using bridges between LOD classes and a high-level domain ontology, improves those bridges, and adapts existing hierarchies of LOD classes and instances accor- dingly to serve as information analysis dimensions. This approach is validated in a case study that analyzes mentions to things of interest for business in tweets. Experimental results show that a considerable amount of the tweets recently sent from Brazil have at least a mention to something of interest for business and that the proposed appro- ach enables analyses that are not supported by current BI systems for analyzing social media data. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018. |
URI: | https://repositorio.ufsc.br/handle/123456789/205444 |
Date: | 2018 |
Files | Size | Format | View |
---|---|---|---|
PGCC1131-D.pdf | 1.620Mb |
View/ |