Implementação de um esquema de extração de dados tabulares da web

DSpace Repository

A- A A+

Implementação de um esquema de extração de dados tabulares da web

Show full item record

Title: Implementação de um esquema de extração de dados tabulares da web
Author: Leal, Stéphanie; Scheidt, Marcelo; Dorneles, Carina
Abstract: Grande parcela das informações atuais se encontram distribuídas na web de forma não estruturada, como em tabelas, sem estarem armazenadas em qualquer base de dados. Considerando que os sistemas computacionais operam eficientemente sobre dados estruturados, maneiras de realizar a extração de dados não estruturados para que possam serem manipulados por máquinas são estudadas. O presente trabalho possui a finalidade de demonstrar a implementação de uma proposta de extração de dados tabulares o qual inclui um logaritmo capaz de particionar o espaço de possíveis valores em compartimentos, onde cada compartimento é atribuído um valor representativo. O objetivo do logaritmo desenvolvido, denominado de logaritmo binning, é encontrar uma definição correta para a similaridade no contexto de classificação de tabelas, basicamente informando se duas linhas são consideradas similares avaliando os representantes de cada atributo de célula de ambas as linhas. O resultado gerado pelo logaritmo binning irá consistir em um conjunto de valores que reunidos identificará o rótulo da linha e assim tornará alcançável o mapeamento de forma automatizada de uma tabela não estruturada para a inserção em uma base de dados e tornar possível a manipulação eficiente das informações. A fim de demonstrar a veracidade da acurácia de tal método, foi implementado em três módulos o processo de extração dos dados de tabelas, consistindo em: classificação dos atributos de células, aplicação do logaritmo binning e classificação das linhas através de um classificador treinado. O desenvolvimento do logaritmo binning permitiu visualizar na prática a teoria proposta pelos autores no artigo base. A partir das tabelas extraídas, avaliando uma amostra e classificando-as com os dados obtidos do cálculo do logaritmo implementado, pode-se perceber a eficiência do comportamento desta proposta de classificação, partindo do princípio da separação das características diferentes de cada linha em compartimentos distintos.
Description: Artigo desenvolvido em bolsa de Iniciação Científica.
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/171413
Date: 2016-12-12


Files in this item

Files Size Format View
RT-INE 003-2015.pdf 942.5Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar