Title: | Representação de dados enriquecida para extração na web |
Author: | Nunes, Marcelo Canzian |
Abstract: |
A extração de informações de páginas da Web é uma importante tarefa que visa aquisição de dados e informações relevantes de uma vasta gama de fontes, permitindo sua utilização para tomadas de decisões estratégicas, análises estatísticas, previsões de tendências, entre outros. Por definição, as páginas são desenvolvidas visando sua utilização por seres humanos através de navegadores, que realizam a interpretação e exibição do conteúdo em código HTML, CSS e JavaScript através do processo de renderização. Porém, identificar e extrair estas informações apenas por seu código HTML, sem a utilização de renderização, ainda é um grande desafio já que a estrutura das páginas utilizam um modelo semiestruturado, não padronizado e com variações entre diferentes fontes, dificultando o processo de extração. Além disso, as páginas frequentemente possuem conteúdo dinâmico, que se reflete em alterações de sua estrutura, layout e marcações HTML, o que torna o processo de extração ainda mais complexo. Para superar isso, este trabalho propõe uma abordagem que utiliza as informações da árvore DOM em conjunto com as informações visuais extraídas em forma de metadados dos elementos HTML da página, para classificar e extrair seus conteúdos relevantes, chamada de Enhanced Data Representation for Extraction in Web (EDREW). Para isso, é criado um modelo textual que representa a identidade visual dos elementos de uma página, a fim de emular o seu contexto visual e hierarquia, sem a necessidade de renderização por um navegador. Com este modelo textual, é realizada a classificação dos elementos entre ruído e conteúdo relevante, utilizando o modelo de linguagem bidirecional ELMo para a contextualização e identificação das características individuais de cada tipo de elemento, realizando assim a extração dos conteúdos relevantes. A avaliação do EDREW foi realizada por meio de uma análise experimental utilizando os datasets SWDE e N-SWDE, para os quais este trabalho alcançou uma média de extração de dados relevantes utilizando a métrica F1-score de 97% no SWDE e 76% no N-SWDE utilizando apenas o domínio de páginas de automóveis. Abstract: The extraction of information from Web pages is an important task that aims to acquire relevant data and information from a wide range of sources, allowing its use for strategic decision making, statistical analysis, trend analysis, among others. By definition, pages are developed to be used by human beings through browsers, which perform the interpretation and display of content in HTML, CSS and JavaScript code through the rendering process. However, identifying and extracting information solely through its HTML code, without the use of rendering, is still a major challenge as the structure of the pages uses a semi-structured, non-standardized model with variations between different sources, making the extraction process difficult. Furthermore, pages often have dynamic content, which is reflected in changes to their structure, layout and HTML markup, which makes the extraction process even more complex. To overcome this, this work proposes an approach that uses information from the DOM tree in conjunction with visual information extracted in the form of metadata from the page's HTML elements, to classify and extract their relevant content, called Enhanced Data Representation for Extraction in Web (EDREW). To do this, a textual model is created that represents the visual identity of the elements on a page, in order to emulate their visual context and classification, without the need for rendering by a browser. With this textual model, the elements are classified between noise and relevant content, using the ELMo bidirectional language model for contextualization and identification of the individual characteristics of each type of element, thus extracting the relevant content. The evaluation of EDREW was carried out through an experimental analysis using the SWDE and N-SWDE datasets, where this work achieved an average extraction of relevant data, using the F1-score metric, of 97% in the complete SWDE and 76% in the N-SWDE using only automobile pages domain. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/262649 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PGCC1278-D.pdf | 3.719Mb |
View/ |