Title: | Nazca: um método de similaridade baseado no contexto para melhoria do casamento de estruturas heterogêneas |
Author: | Oliveira, Karine Barbosa de |
Abstract: |
O casamento de esquemas em nível de estrutura é um processo que pode ser aplicado em diversas áreas que envolvem a manipulação de dados heterogêneos. A ideia principal é casar elementos de estruturas que podem ser encontradas em diferentes fontes de dados, como por exemplo, elementos XML, classes de objetos, tabelas relacionais, web forms entre outras. Este processo é considerado um desafio devido ao grande número de representações heterogêneas de estruturas semanticamente similares. Neste trabalho, descreve-se um método de casamento de esquemas em nível de estruturas aplicado em um processo de busca. O objetivo é utilizar não só a própria estrutura no processo de casamento, mas também dados adicionais armazenados nas fontes de dados, que podem ser suficientemente representativos para caracterizar a estrutura. Estes dados podem ser chamados de "informações contextuais" e servem como base para ajustar o escore final de similaridade entre a estrutura da consulta e as estruturas encontradas nas fontes de dados. O método proposto é composto pelos seguintes componentes: i) funções de similaridade atômicas para elementos do esquema; ii) algoritmo para detecção das informações contextuais; e iii) árvore de decisão para o ajuste final de similaridade. Foram realizados experimentos que demonstram a efetividade do método com melhoria da precisão em relação ao algoritmo usado como "baseline".<br> Abstract : Structure-level matching is an important matching operator in variousapplications areas involving heterogeneous data. The main ideia is tomatching combinations of elements that appear together in a structure,which can be found in dierent data models such as XML elements, objectclasses, relational tables, structures of web forms, and so one. Thisis a challenge due to large number of distinct representations of structuressemantically similar. In this work, we describe a structure-levelmatching method developed to search for structures representations indata sources, taking into account the similarity score between structureelements and its context. The main goal is to use any internalinformation stored in the data source as context beyond the structureinformation, which can be representative enough to characterizethe structure representation itself, for adjusting the similarity scorebetween structure elements. The proposed method consists of the followingcomponents: i) atomic similarity functions to schema elements;ii) detection algorithm of contextual information; e iii) decision tree fornal similarity score adjusts. We also present experiments showing theeectiveness of our method. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2014. |
URI: | https://repositorio.ufsc.br/xmlui/handle/123456789/128639 |
Date: | 2014 |
Files | Size | Format | View |
---|---|---|---|
328259.pdf | 1.981Mb |
View/ |