Title: | Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos |
Author: | Frozza, Angelo Augusto |
Abstract: |
O advento dos Big Data fez com que novas tecnologias de banco de dados (BD) voltados ao gerenciamento de grandes quantidades de dados complexos e heterogêneos ganhassem importância na indústria, como é o caso dos BDs NoSQL. Eles surgem como principal sistema de gerência de BD para Big Data devido a várias características, como a ausência de esquemas (schemaless) ou o uso de esquemas flexíveis. Entretanto, conhecer o esquema dos dados cada vez mais torna-se essencial para diversos tipos de aplicações, como integração, interoperabilidade e validação de dados, processamento de consultas, bem como, ferramentas de administração de dados. Esta tese apresenta uma abordagem para extração de esquemas de BDs NoSQL, com ênfase em dados geográficos. Diferente do estado da arte, demonstra-se que o padrão JSON pode ser usado como formato canônico para representar dados em qualquer um dos quatro principais modelos de dados NoSQL (orientado a documentos, chave-valor, colunar e orientado a grafos). Assim, o JSON é a base para a abordagem, por consequência, propõe-se o uso do JSON Schema como formato de representação dos esquemas extraídos. Embora a especificação do JSON Schema ainda esteja em desenvolvimento (versão draft-2020-12), ela mostrou-se eficiente nas implementações realizadas. Ainda, JSON Schema suporta um conjunto limitado de tipos de dados (string, integer, number, boolean, object, array), porém, ele permite que o usuário possa definir seus próprios tipos de dados e objetos. Assim sendo, outra contribuição desta tese é uma biblioteca para a representação de tipos de dados geográficos em JSON Schema denominada JS4Geo (JSON Schema for Geographic Data). Essa biblioteca também pode ser usada para criar esquemas de dados geográficos armazenados em outros formatos padrão de mercado, como GeoJSON, KML e GML. Esta tese propõe, também, a conversão dos JSON Schemas em um formato preparado para uso por aplicações da Web Semântica. Neste contexto, adotou-se a linguagem SHACL (Shapes Constraint Language) para definir ontologias de representação (shapesfile) a partir dos JSON Schema. SHACL é a mais recente recomendação do W3C e permite, além de descrever dados presentes em um BD NoSQL, realizar a validação de dados na Web Semântica, o que não é possível com as linguagens tradicionais para esquemas na Web Semântica (como OWL ou RDF Schema). A abordagem proposta nesta tese foi avaliada através de um conjunto de testes executados por meio de diversos protótipos implementados, demonstrando a sua viabilidade. Abstract: The Big Data advent has made new database (DB) technologies for managing large amounts of complex and heterogeneous data to gain importance in the industry, like NoSQL DBs. They had emerged as the primary DB management system for Big Data due to several characteristics, like the absence of schemas (schemaless) or flexible schemas. However, to be aware of the data schema is essential for several kinds of applications, such as data integration, interoperability and validation, query processing, as well as data administration tools. This Thesis presents a methodology for extracting schemas from NoSQL DB with an emphasis on geographic data. Different from the state-of-the-art, we argue that the JSON standard can be used as a canonical format to represent data in any of the four main NoSQL data models (document-oriented, key-value, columnar and graph-oriented). Thus, JSON is the basis for our methodology and, as a consequence, we propose the usage of JSON Schema as a representation format for the extracted schemes. Although JSON Schema specification is still in development (version draft-2020-12), it had proved his efficiency, as shown in our evaluations. Nevertheless, JSON Schema specification supports a limited set of data types (string, integer, number, boolean, object, array). However, it allows the user can define their own data types and objects. Due to it, another contribution of this Thesis is a library to represent geographic data types in JSON Schema called JS4Geo (JSON Schema for Geographic Data). It is shown that this library can also be used to create geographic data schemas stored into several industry standard formats, like GeoJSON, KML, and GML. We also propose the conversion of JSON Schemas into a format ready for use by Semantic Web applications. In this context, we adopt SHACL (Shapes Constraint Language) to define representation ontologies (shapesfile) from JSON Schema. SHACL is the most recent recommendation from the W3C. It is able to describe data from NoSQL DB, and perform data validation, which is impossible with traditional languages for schemas in the Semantic Web (like OWL or RDF Schema). Our proposed methodology is evaluated through a set of experiments performed over several prototype tools, which demonstrate its viability. |
Description: | Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021. |
URI: | https://repositorio.ufsc.br/handle/123456789/227198 |
Date: | 2021 |
Files | Size | Format | View |
---|---|---|---|
PGCC1194-T.pdf | 56.67Mb |
View/ |