Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados

DSpace Repository

A- A A+

Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Dorneles, Carina Friedrich pt_BR
dc.contributor.author Costa, José Henrique Calenzo pt_BR
dc.date.accessioned 2016-09-20T04:25:42Z
dc.date.available 2016-09-20T04:25:42Z
dc.date.issued 2016 pt_BR
dc.identifier.other 341906 pt_BR
dc.identifier.uri https://repositorio.ufsc.br/xmlui/handle/123456789/167840
dc.description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2016. pt_BR
dc.description.abstract Algoritmos de ranking de páginas Web podem ser criados usando técnicas baseadas em elementos estruturais da página Web, em segmentação da página ou na busca personalizada. Esta pesquisa aborda um método de ranking de documentos previamente filtrados, que segmenta a página Web em blocos de três categorias para delas eliminar conteúdo irrelevante. O método de ranking proposto, chamado Filtered-Page Ranking (FPR), consta de duas etapas principais: (i) segmentação da página web e eliminação de conteúdo irrelevante e (ii) ranking de páginas Web. O foco da extração de conteúdo irrelevante é eliminar conteúdos não relacionados à consulta do usuário, através do algoritmo proposto Query-Based Blocks Mining (QBM), para que o ranking considere somente conteúdo relevante. O foco da etapa de ranking é calcular quão relevante cada página Web é para determinada consulta, usando critérios considerados em estudos de recuperação da informação. Com a presente pesquisa pretende-se demonstrar que o QBM extrai eficientemente o conteúdo irrelevante e que os critérios utilizados para calcular quão próximo uma página Web é da consulta são relevantes, produzindo uma média de resultados de ranking de páginas Web de qualidade melhor que a do clássico modelo vetorial.<br> pt_BR
dc.description.abstract Abstract : Web page ranking algorithms can be created using content-based, structure-based or user search-based techniques. This research addresses an user search-based approach applied over previously filtered documents ranking, which relies in a segmentation process to extract irrelevante content from documents before ranking. The process splits the document into three categories of blocks in order to fragment the document and eliminate irrelevante content. The ranking method, called Page Filtered Ranking, has two main steps: (i) irrelevante content extraction; and (ii) document ranking. The focus of the extraction step is to eliminate irrelevante content from the document, by means of the Query-Based Blocks Mining algorithm, creating a tree that is evaluated in the ranking process. During the ranking step, the focus is to calculate the relevance of each document for a given query, using criteria that give importance to specific parts of the document and to the highlighted features of some HTML elements. Our proposal is compared to two baselines: the classic vectorial model, and the CETR noise removal algorithm, and the results demonstrate that our irrelevante content removal algorithm improves the results and our relevance criteria are relevant to the process. en
dc.format.extent 108 p.| il., grafs., tabs. pt_BR
dc.language.iso por pt_BR
dc.subject.classification Computação pt_BR
dc.subject.classification Sites da Web pt_BR
dc.subject.classification HTML (Linguagem de marcação de documento) pt_BR
dc.subject.classification Mineração de dados (Computação) pt_BR
dc.subject.classification Recuperação da informação pt_BR
dc.title Filtered-page ranking: uma abordagem para ranqueamento de documentos HTML previamente filtrados pt_BR
dc.type Dissertação (Mestrado) pt_BR


Files in this item

Files Size Format View
341906.pdf 4.707Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar