Abstract:
|
Documentos disponíveis na Web (e.g., conteúdos de bibliotecas digitais) e postagens em mídias sociais (e.g., Twitter, Facebook) são fontes abundantes de informações. Nesses textos pode-se encontrar componentes semanticamente ricos denominados palavras relevantes. Essas palavras podem ser, por exemplo, entidades nomeadas (i.e., menções a locais, pessoas, instituições, etc.) ou componentes e expressões que possuem valor sintático e semântico relevantes (e.g., substantivos, verbos, adjetivos, adjuntos). Atualmente, existe uma grande variedade de ferramentas para reconhecimento de palavras relevantes em textos. Tais ferramentas possibilitam extrair, desambiguar e classificar informações valiosas a partir de textos de diversas fontes (literatura, notícias, microblogs, etc). Porém, o desempenho computacional e a qualidade dos resultados produzidos por estas ferramentas costumam ser degradados quando o texto usado é oriundo de mídias sociais. Isso acontece porque o texto de mídias sociais apresenta conteúdo informal, possuindo erros ortográficos e gramaticais, acrônimos, gírias, etc. Este trabalho apresenta uma revisão da literatura sobre técnicas e ferramentas para a extração de palavras relevantes de textos e uma análise experimental de ferramentas para anotação morfossintática automática, com foco em mídias sociais, especialmente microblogs, como o Twitter. As ferramentas de PoS Tagging selecionadas são avaliadas em 3 estudos de caso: (i) um benchmarch de classificação morfossintática de textos de tweets com regras ouro para mensurar precisão e cobertura; (ii) uma amostra do corpus histórico do português Tycho Brahe e (iii) um volume considerável de tweets. Com isso pretende-se analisar a cobertura e precisão usando o benchmark além do desempenho em dados reais de um corpus eletrônico e de um microblog. Os resultados mostram evidência experimental de que os resultados das ferramentas de PoS Tagging para textos oriundos de mídias sociais são piores do que para textos de linguagem formal. |