Title: | Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos |
Author: | Abreu, Jean Carlos Oliveira de |
Abstract: |
Menções (e.g., a entidades, a conceitos) identificadas em textos por ferramentas do estado da arte não raramente apresentam incompatibilidades com as respectivas menções da regra ouro (menções anotadas e validadas por humanos em textos). Esta dissertação propõe uma classificação formal desses problemas de incompatibilidade de menções, incluindo correspondências parciais. Além disso, apresenta evidências de que, em muitos casos, menções mais longas levam a maior precisão e a informações mais específicas que menções mais curtas. Com base nisso, foram desenvolvidos no âmbito deste mestrado algoritmos para melhorar a eficácia de ferramentas de reconhecimento de menções, mediante a expansão de menções em textos quando e o quanto possível. Tais algoritmos funcionam como um passo de pós-processamento, baseado em dicionário de nomes de superfície, para melhorar os resultados retornados por qualquer ferramenta que identifique menções em texto. Experimentos realizados com a Coleção Dourada do HAREM e o Gerbil, framework que integra uma variedade de ferramentas do estado da arte e diversos conjuntos de dados contendo textos do mundo real, mostraram que sobre-segmentação (menções da regra outro contendo uma ou mais menções menores identificadas por ferramentas) é a classe de problema de incompatibilidade de menções mais prevalente dentre as classes formalizadas neste trabalho. Alguns dos algoritmos propostos nesta dissertação solucionaram a maior parte dos casos de sobre-segmentação, sem ocasionar muitos casos do problema oposto, sub-segmentação (i.e., menções maiores que as da regra ouro), com consequentes melhorias na precisão e na cobertura. O algoritmo MInT NoOver também gerou ganhos de medida-F sobre os resultados de ligação de entidades da ferramenta AGDISTIS. Abstract : Mentions (e.g., entities, concepts) identified in texts by state-of-the-art tools sometimes present incompatibilities with the respective mentions of the ground truth. This work proposes a formal classification of mention mismatching problems, including partial matching. In addition, it provides evidence that, in many cases, longer mentions lead to greater accuracy and more specific information than shorter mentions. Based on this, algorithms to improve the effectiveness of mention recognition tools have been developed in this work, by expanding mentions in texts when and as much as possible. Such algorithms works as a post-processing step, based on a surface name dictionary, to improve the results returned by any tool that identifies mentions in text. Experiments with the HAREM Gold Collection and Gerbil, a framework that integrates a variety of state-of-the-art tools and several datasets containing real-world texts, have shown that over-segmentation (mentions of the ground truth containing one or more minor mentions identified by tools) is the most prevalent class of mismatching problems among the formalized in this work. Some of the algorithms proposed in this dissertation solved most of the cases of over-segmentation, without causing many cases of the opposite problem, sub-segmentation (i.e., mentions greater than those of the ground truth), with consequent improvements in accuracy and coverage. The MInT NoOver algorithm also generated F-measure gains over the entity binding results of the AGDISTIS tool. |
Description: | Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018. |
URI: | https://repositorio.ufsc.br/handle/123456789/193641 |
Date: | 2018 |
Files | Size | Format | View |
---|---|---|---|
PGCC1120-D.pdf | 1.800Mb |
View/ |