Abstract:
|
O objetivo é apresentar um estudo comparativo dos principais modelos de algoritmos de Análise de Agrupamento (Cluster Analysis) existentes na literatura e implementados em softwares, visando o seu uso no processo de descoberta de conhecimentos em grandes bancos de dados (Knowledge Discovery in Databases - KDD). Os algoritmos de Agrupamento são diferenciados de acordo com o seu método de formação (Hierárquico, Partição, Baseado em Modelo, Baseado em Grade e Baseado em Densidade) e também pela medida de distância que expressa a similaridade ou dissimilaridade entre os objetos. Mostram-se também critérios de mensuração para que se possam avaliar quais os melhores algoritmos para grandes bases de dados. Os algoritmos foram avaliados com dados reais e simulados utilizando a Linguagem R, que apontou o algoritmo k-medoid como o mais preciso e rápido. O trabalho mostra que o uso de Análise de Agrupamentos (AA) pode ser feito através de software gratuito e com máquina de baixo custo, mas para se obtenham bons resultados são necessários sólidos conhecimentos teóricos sobre AA. |