Implementação de um esquema de extração de dados tabulares da web

Repositório institucional da UFSC

A- A A+

Implementação de um esquema de extração de dados tabulares da web

Mostrar registro completo

Título: Implementação de um esquema de extração de dados tabulares da web
Autor: Leal, Stéphanie; Scheidt, Marcelo; Dorneles, Carina
Resumo: Grande parcela das informações atuais se encontram distribuídas na web de forma não estruturada, como em tabelas, sem estarem armazenadas em qualquer base de dados. Considerando que os sistemas computacionais operam eficientemente sobre dados estruturados, maneiras de realizar a extração de dados não estruturados para que possam serem manipulados por máquinas são estudadas. O presente trabalho possui a finalidade de demonstrar a implementação de uma proposta de extração de dados tabulares o qual inclui um logaritmo capaz de particionar o espaço de possíveis valores em compartimentos, onde cada compartimento é atribuído um valor representativo. O objetivo do logaritmo desenvolvido, denominado de logaritmo binning, é encontrar uma definição correta para a similaridade no contexto de classificação de tabelas, basicamente informando se duas linhas são consideradas similares avaliando os representantes de cada atributo de célula de ambas as linhas. O resultado gerado pelo logaritmo binning irá consistir em um conjunto de valores que reunidos identificará o rótulo da linha e assim tornará alcançável o mapeamento de forma automatizada de uma tabela não estruturada para a inserção em uma base de dados e tornar possível a manipulação eficiente das informações. A fim de demonstrar a veracidade da acurácia de tal método, foi implementado em três módulos o processo de extração dos dados de tabelas, consistindo em: classificação dos atributos de células, aplicação do logaritmo binning e classificação das linhas através de um classificador treinado. O desenvolvimento do logaritmo binning permitiu visualizar na prática a teoria proposta pelos autores no artigo base. A partir das tabelas extraídas, avaliando uma amostra e classificando-as com os dados obtidos do cálculo do logaritmo implementado, pode-se perceber a eficiência do comportamento desta proposta de classificação, partindo do princípio da separação das características diferentes de cada linha em compartimentos distintos.
Descrição: Artigo desenvolvido em bolsa de Iniciação Científica.
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/171413
Data: 2016-12-12


Arquivos deste item

Arquivos Tamanho Formato Visualização
RT-INE 003-2015.pdf 942.5Kb PDF Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro completo

Buscar DSpace


Navegar

Minha conta

Estatística

Compartilhar