Proposta de uma função de similaridade para listas HTML extraídas da Web

DSpace Repository

A- A A+

Proposta de uma função de similaridade para listas HTML extraídas da Web

Show full item record

Title: Proposta de uma função de similaridade para listas HTML extraídas da Web
Author: Venancio, Filipe Guedes
Abstract: A Web tornou-se uma fonte rica em dados, diversificada pela popularização dos sites, redes de relacionamento e aplicativos, sendo utilizada para a extra- ção seletiva de conteúdo útil para consumo humano. Entretanto, a extração e análise dos dados contidos na Web são um desafio devido ao crescimento das massas de dados e a variabilidade da representação destas informações. Entre estas informações estão as listas HTML, que tendem a ser apenas um agrupamento onde os itens de dados presentes nela possuem um contexto comum, como por exemplo, uma lista de informações sobre cidades ou uma lista de músicas. Alguns trabalhos relacionados buscam a comparação das listas HTML que possuam características semelhantes e que seguem um determinado padrão, pois assumem que as listas são provenientes de respostas produzidas por aplicativos e sistemas. Diferente desses trabalhos, este trabalho de conclusão de curso considera listas HTML extraídas da Web com contextos desconhecidos, que necessitam de uma análise e padronização de sua estrutura, de forma a considerar uma possível variabilidade estrutural, visando determinar se elas dizem respeito a um mesmo assunto. O objetivo principal deste trabalho é propor uma técnica de comparação entre listas HTML que resulte em um escore de similaridade que possa ser utilizado para diversas finalidades, como integração de dados e buscas aproximadas de dados com foco em listas na Web.
Description: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/177697
Date: 2017-06-20


Files in this item

Files Size Format View Description
monografia-tcc-vfinal.pdf 1.265Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar