Title: | Data linking as a service: a microservices infrastructure for publishing linked data |
Author: | Salvadori, Ivan Luiz |
Abstract: |
Empresas, governos e pessoas comuns produzem e publicam uma enorme quantidade de dados na Web. Muitos observadores estão apontando que a compreensão dos dados não pode ser feita sem ferramentas adequadas para conceituar, preparar e integrar dados. Pesquisas realizadas nos últimos anos mostram que descrever os dados semanticamente é crucial para promover soluções de integração de dados. No entanto, existem poucos padrões definidos para o desenvolvimento de serviços orientados a dados que possuem suporte a padrões da Web semântica. Nesse sentido, este trabalho propõe DLaaS, uma infraestrutura de microserviços para publicação de dados conectados, capaz de interconectar informações de várias fontes de dados. A infraestrutura proposta é composta por componentes internos capazes de conectar proativamente dados gerenciados por microserviços distintos. DLaaS busca facilitar a execução dos processos necessários para publicar adequadamente dados conectados na Web, o que inclui enriquecimento semântico, conversão de dados legados em dados conectados, processos de interlinking de dados e publicação. Seu principal objetivo é maximizar a reutilização de dados através da conexão de entidades provenientes de conjuntos de dados distintos e heterogêneos, mas que possuem um certo nível de interseção de dados ou possuem relacionamentos semânticos explicitamente definidos. O que diferencia este trabalho das demais propostas encontradas na literatura é a capacidade da infraestrutura executar a otimização da estrutura de dados e gerar links entre recursos Web e, portanto, fornecer uma visão navegável de várias fontes de dados heterogêneas e distribuídas. Além disso, este trabalho propõem um modelo de capacidade que auxilia o desenvolvimento de provedores de dados semânticos. A fim de demonstrar a viabilidade da abordagem proposta, avaliações foram conduzidas de acordo com métodos estatísticos apropriados utilizando conjuntos de dados do mundo real.<br> Abstract : We are living in the age of big data, advanced analytics, and data science. Companies, government, and even ordinary people are producing and publishing a huge amount of data on the Web. Many observers are pointing out that making sense of data cannot be done without suitable tools for conceptualizing, preparing, and integrating data. Research in the last years has shown that taking into account the semantics of data is crucial for fostering data integration solutions. However, there is a lack of solutions for data publishing that follow the best practices for exposing, sharing and connecting data. With this regard, this work proposed DLaaS, a microservices infrastructure for publishing linked data. DLaaS is capable of interconnecting Web resources from multiple data sources. The proposed infrastructure is composed of several internal components responsible for performing a multitude of tasks for pro-actively connecting Web resources managed by the infrastructure. The proposed infrastructure aims at facilitating the execution of necessary processes to properly publish high quality linked data, which includes semantic enrichment, conversion of legacy data into linked data, data linking procedures, and publication. Its main goal is to improve the reuse of data by connecting entities based on distinct and heterogeneous datasets that share a certain level of data intersection or semantic relationship. What differentiates this work from similar proposals found in the literature is the capability of performing data structure optimization combined with the generation of links between Web resources and therefore providing a navigable view of multiple distributed heterogeneous data sources. Additionally, this work proposed a capacity model that describes how to properly adopt the most appropriate semantic Web features for implementing data-driven services. In order to properly demonstrate the feasability of our approach, evaluations were conducted according to appropriate statistical methods and used real-world datasets. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2019. |
URI: | https://repositorio.ufsc.br/handle/123456789/214954 |
Date: | 2019 |
Files | Size | Format | View |
---|---|---|---|
PGCC1146-T.pdf | 2.944Mb |
View/ |