Pré-processamento para a mineração de dados: uso da análise de componentes principais com escalonamento ótimo
Show full item record
Title:
|
Pré-processamento para a mineração de dados: uso da análise de componentes principais com escalonamento ótimo |
Author:
|
Schmitt, Jeovani
|
Abstract:
|
A mineração de dados em grandes bases pode requerer alto tempo computacional. Além do mais, é comum as bases de dados conterem variáveis mensuradas em diferentes níveis: intervalar, ordinal e nominal. Neste caso, técnicas desenvolvidas para variáveis quantitativas não poderiam ser aplicadas sob as variáveis originais. Como exemplo, pode-se citar a análise de agrupamentos pelo método das k-médias. Este exige que as variáveis de entradas sejam quantitativas. Este trabalho apresenta uma metodologia para a fase do pré-processamento em mineração de dados, que utiliza a análise de componentes principais (ACP) com escalonamento ótimo (EO). O pré-processamento é uma etapa fundamental que pode melhorar a performance dos algoritmos de análise, através da redução de dimensionalidade. O escalonamento ótimo permite analisar bases que contenham variáveis observadas em diferentes níveis de mensuração. Através da ACP é possível obter uma redução das variáveis originais em um número de componentes principais, gerando novas coordenadas, menor que o número de variáveis originais. As novas coordenadas podem ser utilizadas na mineração de dados propriamente dita, em tarefas como agrupamentos, classificação entre outras. Essas tarefas podem ser realizadas por métodos estatísticos ou computacionais, como redes neurais, algoritmos genéticos entre outros. A metodologia proposta foi testada em uma base de dados com 118.776 registros de pessoas, pesquisadas pelo Instituto Brasileiro de Geografia e Estatística - IBGE, contendo 13 variáveis observadas em diferentes níveis de mensuração. Através da ACP com EO, as 13 variáveis foram reduzidas a 6 componentes principais, preservando ainda 77% da variabilidade original. Sob o novo conjunto de coordenadas foi aplicada a análise de agrupamentos, utilizando o algoritmo das k-médias para a separação dos grupos, com o objetivo de ilustrar uma tarefa comum em mineração de dados, a identificação de grupos, onde foi possível descrever 6 subgrupos ou clusters. |
Description:
|
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Ciência da Computação. |
URI:
|
http://repositorio.ufsc.br/handle/123456789/101803
|
Date:
|
2005 |
Files in this item
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar