Uma Ferramenta para Extração de Esquemas de Bancos de Dados NoSQL Orientados a Documentos

DSpace Repository

A- A A+

Uma Ferramenta para Extração de Esquemas de Bancos de Dados NoSQL Orientados a Documentos

Show full item record

Title: Uma Ferramenta para Extração de Esquemas de Bancos de Dados NoSQL Orientados a Documentos
Author: Costa, Felipe de Souza da
Abstract: Os bancos de dados NoSQL têm se tornando cada vez mais populares no desenvolvimento de aplicações, entre outras características, devido à sua capacidade de lidar com grandes volumes de dados e pela ausência de um esquema de dados explícito. Embora a maioria dos bancos de dados NoSQL não tenha esquema, as informações sobre as propriedades estruturais dos dados persistidos são essenciais durante o desenvolvimento de aplicações. Sem o conhecimento dessas propriedades estruturais, atividades de desenvolvimento de aplicações ou análise de dados tornam- se um trabalho custoso e, às vezes, impraticáveis. Sendo assim, o presente trabalho propõe o desenvolvimento de uma ferramenta que extraia o esquema de uma coleção de documentos no formato JSON, armazenados em um banco de dados NoSQL orientado a documentos, com o objetivo de facilitar diversas tarefas de manipulação posterior desses dados, como a recuperação, validação, integração e análise de dados. Na fase de extração das estruturas dos documentos são aplicadas operações de agregação visando obter um documento para cada estrutura distinta e também é proposta uma estrutura global para agrupar essas estruturas a fim de gerar um único esquema no formato JSON Schema. Finalmente, experimentos realizados em datasets reais do DBPedia, Foursquare e GitHub, além de um dataset hipotético, demonstram que os resultados de tempo de processamento e a completude dos esquemas gerados são comparáveis com os resultados encontrados em abordagens do estado da arte.NoSQL databases are becoming increasingly popular in application development, among other features, because of their ability to handle large data volumes and also their ability to be schemaless. Although most NoSQL databases are schemaless, information about the structural properties of stored data is essential during the application development. Without the knowledge of these structural properties, application development or data analysis activities become costly and sometimes unfeasible. Thus, this work proposes a tool that, given a collection of data in JSON format, stored in a document-oriented NoSQL database, performs the extraction of its schema, with the purpose of facilitating further data manipulation tasks, like data retrieval, integration, validation and analysis. In the extraction phase of the document structure, aggregation operations are applied to obtain a document for each distinct structure. Besides, a global structure is proposed to group these structures in order to present a single schema in JSON Schema format. Finally, experiments based on real DBPedia, Foursquare and GitHub datasets, as well as a hypothetical dataset, demonstrate that the results of processing time and completeness of the schemes generated are comparable with the results found in state of the art approaches.
Description: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Sistemas de Informação.
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/182209
Date: 2017-11-21


Files in this item

Files Size Format View Description
monografia_FelipeCosta.pdf 4.473Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar