FasterSparql: an architecture for query mediation over loosely coupled federations of knowledge graphs

DSpace Repository

A- A A+

FasterSparql: an architecture for query mediation over loosely coupled federations of knowledge graphs

Show full item record

Title: FasterSparql: an architecture for query mediation over loosely coupled federations of knowledge graphs
Author: Huf, Alexis Armin
Abstract: Integração de dados, que consiste em fornecer uma visão unificada para dados de múltiplas fontes, como Web APIs e bases de dados, é um problema comum e tópico de extensa literatura. No contexto de Linked Data, mediatores de consultas federadas computam o resultado de uma consulta direcionada à união de todos os dados em diversas fontes para evitar a materialização da união dos dados em um repositório único. Embora tal abordagem facilite a integração de dados, o tempo de resposta e o consumo de recursos por parte de mediadores do estado da arte pode ser demasiadamente elevado, dependendo da consulta e dos dados envolvidos. Após análise da literatura, duas limitações foram identificadas no estado da arte de mediação de consultas: (i) a arquitetura de software dos motores de execução nos mediadores adota uma representação excessivamente granular dos resultados intermediários; (ii) o protocolo SPARQL sobre HTTP atua como um gargalo, inibindo a concorrência entre mediador e fontes de dados. O presente trabalho propõe uma arquitetura de mediador e uma extensão para o protocolo SPARQL, resolvendo os problemas apontados e focando na forma como consultas são executadas ao invés de como as consultas são decompostas. O mediador foi implementado em Java e foi avaliado utilizando o benchmark LargeRDFBench. Na comparação com o mediador, cujo motor de execução é o mais eficiente, o protótipo consegue completar 7 consultas adicionais dentre 32 no benchmark e, executando os mesmos planos, é mais de 5 vezes mais rápido na média de várias configurações do mediador e da federação. A extensão WebSockets torna a execução mais de 2 vezes mais rápida do que utilizando SPARQL sobre HTTP, em federações utilizando a fonte menos eficiente. Considerando uma federação com as fontes mais eficientes, o ganho proporcionado pela extensão WebSockets em relação ao SPARQL sobre HTTP supera as 23 vezes, evidenciando a capacidade da extensão proposta em permitir que ganhos de eficiência das fontes sejam observáveis também no cenário de mediação.Abstract: Data integration, or providing a unified view for data that originates from multiple sources, such as Web APIs and databases, is a common problem in practice and the subject of extensive research literature. In the context of linked data, federated query mediators can take a single query and transparently compute results for it over a union of all data without requiring its materialization as a single repository. While this approach eases integration, response time and resource consumption by state of the art mediators can be excessive, depending on the query and the data. Upon analysis, two limitations were identified with current mediators: (i) the software architecture of execution engines within mediators adopts an excessively granular representation of intermediate results; (ii) the SPARQL protocol, over HTTP, acts as a bottleneck inhibiting concurrency between mediator and data sources. This work proposes a mediator architecture and an extension to the SPARQL protocol that tackle the aforementioned issues by focusing on how queries are executed rather than on how they are decomposed. The mediator was implemented in Java and was evaluated using the LargeRDFBench benchmark. In comparison to the most efficient execution engine in the literature, using the same execution plan and join operator, the prototype is over 5 times faster and completes 7 additional queries out of the 32 benchmark queries, in various federation and mediator configurations. The WebSockets extension provides an average speedup of 2 times when mediating over the slowest triple store. When mediating over the fastest triple store, the achieved speedup is over 20 times, demonstrating that the extension is not only more efficient, but that it also allows mediators to benefit from efficiency advances in triple stores.
Description: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2025.
URI: https://repositorio.ufsc.br/handle/123456789/264679
Date: 2025


Files in this item

Files Size Format View
PGCC1292-T.pdf 14.52Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar