Pré-processamento para a mineração de dados: uso da análise de componentes principais com escalonamento ótimo

DSpace Repository

A- A A+

Pré-processamento para a mineração de dados: uso da análise de componentes principais com escalonamento ótimo

Show full item record

Title: Pré-processamento para a mineração de dados: uso da análise de componentes principais com escalonamento ótimo
Author: Schmitt, Jeovani
Abstract: A mineração de dados em grandes bases pode requerer alto tempo computacional. Além do mais, é comum as bases de dados conterem variáveis mensuradas em diferentes níveis: intervalar, ordinal e nominal. Neste caso, técnicas desenvolvidas para variáveis quantitativas não poderiam ser aplicadas sob as variáveis originais. Como exemplo, pode-se citar a análise de agrupamentos pelo método das k-médias. Este exige que as variáveis de entradas sejam quantitativas. Este trabalho apresenta uma metodologia para a fase do pré-processamento em mineração de dados, que utiliza a análise de componentes principais (ACP) com escalonamento ótimo (EO). O pré-processamento é uma etapa fundamental que pode melhorar a performance dos algoritmos de análise, através da redução de dimensionalidade. O escalonamento ótimo permite analisar bases que contenham variáveis observadas em diferentes níveis de mensuração. Através da ACP é possível obter uma redução das variáveis originais em um número de componentes principais, gerando novas coordenadas, menor que o número de variáveis originais. As novas coordenadas podem ser utilizadas na mineração de dados propriamente dita, em tarefas como agrupamentos, classificação entre outras. Essas tarefas podem ser realizadas por métodos estatísticos ou computacionais, como redes neurais, algoritmos genéticos entre outros. A metodologia proposta foi testada em uma base de dados com 118.776 registros de pessoas, pesquisadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE, contendo 13 variáveis observadas em diferentes níveis de mensuração. Através da ACP com EO, as 13 variáveis foram reduzidas a 6 componentes principais, preservando ainda 77% da variabilidade original. Sob o novo conjunto de coordenadas foi aplicada a análise de agrupamentos, utilizando o algoritmo das k-médias para a separação dos grupos, com o objetivo de ilustrar uma tarefa comum em mineração de dados, a identificação de grupos, onde foi possível descrever 6 subgrupos ou clusters.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação.
URI: http://repositorio.ufsc.br/handle/123456789/101803
Date: 2005


Files in this item

Files Size Format View
223783.pdf 966.7Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar