Implementação de um esquema de extração de dados tabulares da web

DSpace Repository

A- A A+

Implementação de um esquema de extração de dados tabulares da web

Show simple item record

dc.contributor.author Leal, Stéphanie
dc.contributor.author Scheidt, Marcelo
dc.contributor.author Dorneles, Carina
dc.date.accessioned 2016-12-12T10:15:24Z
dc.date.available 2016-12-12T10:15:24Z
dc.date.issued 2016-12-12
dc.identifier.uri https://repositorio.ufsc.br/xmlui/handle/123456789/171413
dc.description Artigo desenvolvido em bolsa de Iniciação Científica. pt_BR
dc.description.abstract Grande parcela das informações atuais se encontram distribuídas na web de forma não estruturada, como em tabelas, sem estarem armazenadas em qualquer base de dados. Considerando que os sistemas computacionais operam eficientemente sobre dados estruturados, maneiras de realizar a extração de dados não estruturados para que possam serem manipulados por máquinas são estudadas. O presente trabalho possui a finalidade de demonstrar a implementação de uma proposta de extração de dados tabulares o qual inclui um logaritmo capaz de particionar o espaço de possíveis valores em compartimentos, onde cada compartimento é atribuído um valor representativo. O objetivo do logaritmo desenvolvido, denominado de logaritmo binning, é encontrar uma definição correta para a similaridade no contexto de classificação de tabelas, basicamente informando se duas linhas são consideradas similares avaliando os representantes de cada atributo de célula de ambas as linhas. O resultado gerado pelo logaritmo binning irá consistir em um conjunto de valores que reunidos identificará o rótulo da linha e assim tornará alcançável o mapeamento de forma automatizada de uma tabela não estruturada para a inserção em uma base de dados e tornar possível a manipulação eficiente das informações. A fim de demonstrar a veracidade da acurácia de tal método, foi implementado em três módulos o processo de extração dos dados de tabelas, consistindo em: classificação dos atributos de células, aplicação do logaritmo binning e classificação das linhas através de um classificador treinado. O desenvolvimento do logaritmo binning permitiu visualizar na prática a teoria proposta pelos autores no artigo base. A partir das tabelas extraídas, avaliando uma amostra e classificando-as com os dados obtidos do cálculo do logaritmo implementado, pode-se perceber a eficiência do comportamento desta proposta de classificação, partindo do princípio da separação das características diferentes de cada linha em compartimentos distintos. pt_BR
dc.description.sponsorship CNPq pt_BR
dc.language.iso por pt_BR
dc.subject WebTables, Atributos, Logarithm Binning, Similaridade pt_BR
dc.title Implementação de um esquema de extração de dados tabulares da web pt_BR
dc.type Article pt_BR


Files in this item

Files Size Format View
RT-INE 003-2015.pdf 942.5Kb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar