Seleção e Avaliação Experimental de Ferramentas para Anotação Morfossintática Automática

DSpace Repository

A- A A+

Seleção e Avaliação Experimental de Ferramentas para Anotação Morfossintática Automática

Show full item record

Title: Seleção e Avaliação Experimental de Ferramentas para Anotação Morfossintática Automática
Author: Sorato, Danielly
Abstract: Documentos disponíveis na Web (e.g., conteúdos de bibliotecas digitais) e postagens em mídias sociais (e.g., Twitter, Facebook) são fontes abundantes de informações. Nesses textos pode-se encontrar componentes semanticamente ricos denominados palavras relevantes. Essas palavras podem ser, por exemplo, entidades nomeadas (i.e., menções a locais, pessoas, instituições, etc.) ou componentes e expressões que possuem valor sintático e semântico relevantes (e.g., substantivos, verbos, adjetivos, adjuntos). Atualmente, existe uma grande variedade de ferramentas para reconhecimento de palavras relevantes em textos. Tais ferramentas possibilitam extrair, desambiguar e classificar informações valiosas a partir de textos de diversas fontes (literatura, notícias, microblogs, etc). Porém, o desempenho computacional e a qualidade dos resultados produzidos por estas ferramentas costumam ser degradados quando o texto usado é oriundo de mídias sociais. Isso acontece porque o texto de mídias sociais apresenta conteúdo informal, possuindo erros ortográficos e gramaticais, acrônimos, gírias, etc. Este trabalho apresenta uma revisão da literatura sobre técnicas e ferramentas para a extração de palavras relevantes de textos e uma análise experimental de ferramentas para anotação morfossintática automática, com foco em mídias sociais, especialmente microblogs, como o Twitter. As ferramentas de PoS Tagging selecionadas são avaliadas em 3 estudos de caso: (i) um benchmarch de classificação morfossintática de textos de tweets com regras ouro para mensurar precisão e cobertura; (ii) uma amostra do corpus histórico do português Tycho Brahe e (iii) um volume considerável de tweets. Com isso pretende-se analisar a cobertura e precisão usando o benchmark além do desempenho em dados reais de um corpus eletrônico e de um microblog. Os resultados mostram evidência experimental de que os resultados das ferramentas de PoS Tagging para textos oriundos de mídias sociais são piores do que para textos de linguagem formal.
Description: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Ciências da Computação.
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/171423
Date: 2016-11-16


Files in this item

Files Size Format View Description
RelatorioFinalDanielly.pdf 1.320Mb PDF View/Open TCC

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar