Sistema adaptativo neural para compressão sequencial e classificação de textos

DSpace Repository

A- A A+

Sistema adaptativo neural para compressão sequencial e classificação de textos

Show full item record

Title: Sistema adaptativo neural para compressão sequencial e classificação de textos
Author: Ricken, Cristina Elisabeth
Abstract: O contexto de crescente disponibilidade de informação textual em formato digital evidencia a importância de mecanismos de compactação de dados sem perda e de classificação automática de textos para a gestão de informações. Esta dissertação apresenta um novo sistema para compressão de dados sem perda, utilizando uma rede neural artificial baseada na Teoria da Ressonância Adaptativa (Adaptive Resonance Theory - ART) para modelagem preditiva de seqüências discretas. Uma rede fuzzy ARTMAP modificada gera modelos para estimações probabilísticas e é integrada a um codificador aritmético. O sistema adaptativo neural de compressão desenvolvido realiza o aprendizado incremental dos padrões observados nas seqüências apresentadas, executando a compactação seqüencial e a descompactação exata de seqüências discretas sem conhecimento prévio da estrutura estatística da fonte das mensagens. O sistema foi testado diante de uma base de dados pública para benchmark (formada por arquivos binários e de texto) para avaliação de seu desempenho em relação a compactadores de texto tradicionais, atingindo taxas de compressão melhores que o software gzip. Além da viabilidade de utilização da rede neural proposta no estágio de modelagem do processo de compressão sem perda, a capacidade do sistema desenvolvido foi testada em duas tarefas de classificação automática de textos: identificação de idiomas e classificação por gênero de textos. A classificação por gênero de textos, por meio da abordagem do presente trabalho, visa designar textos a classes de publicações digitais, conforme a similaridade em relação ao modelo que representa cada classe. A técnica neural de compressão foi aplicada a estas tarefas, medindo a entropia cruzada entre cada exemplar de teste e um modelo gerado. A similaridade entre uma seqüência de texto e cada uma das classes é determinada autonomamente pelo sistema, sem a pré-definição de atributos ou conhecimento analítico sobre o texto ou um idioma específico. Na tarefa de identificação de idiomas todos os itens de teste foram perfeitamente reconhecidos e na tarefa de classificação por gênero de textos o sistema classificou corretamente 95,83% dos exemplares de teste apresentados. A compressão sem perda de seqüências discretas propicia um ambiente para estudo do comportamento da rede neural proposta em tarefas que requerem adaptação e estimação probabilística on-line. Além da compressão de dados sem perda, o sistema neural desenvolvido pode ser aplicado a outras áreas que requerem aprendizado de padrões, modelagem preditiva e classificação de seqüências, como descoberta de conhecimento em bases de dados para gestão de informações e inteligência de negócios.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2001.
URI: http://repositorio.ufsc.br/xmlui/handle/123456789/82079
Date: 2012-10-19


Files in this item

Files Size Format View
275689.pdf 1.171Mb PDF Thumbnail

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar