Abstract:
|
Este trabalho apresenta um algoritmo para identificar características que possam ser utilizadas num processo de amostragem estratificada. O algoritmo localiza as características e os seus respectivos valores que dividem o conjunto de dados em estratos, de tal forma que a variância do estimador, de uma média ou proporção, seja inferior à variância do estimador baseado em uma amostra aleatória simples. O algoritmo implementa o cálculo da variância do estimador baseado nos três métodos de alocação: uniforme, proporcional e alocação ótima de Neyman com custo fixo. Foi também implementado um novo método denominado GRD, baseado no princípio do ganho de informação, que exige menos recursos de processamento. O algoritmo foi aplicado em um conjunto de dados simulados para produzir estratos pré-definidos, e também, em um conjunto de dados real. Além disso, o algoritmo foi implementado parcialmente em um Gerenciador de Banco de Dados. This work presents an algorithm developed to identify characteristics that can be used to define strata in a stratified sampling process. The algorithm finds the characteristics, and its respective values, that split the data set into strata, in such a way that the variance of the estimator, of the mean or proportion, is smaller than the variance of the estimator based on a simple random sampling process. The algorithm implements the calculation of the variance of the estimator based on the three methods of allocation: uniform, proportional and Neyman optimum allocation with fixed cost. It has also implemented a new method called GRD, based on the principle of the information gain, that demands less am simulated data, built to produce well defined strata, and in a real data set. Moreover, the algorithm was partially implemented in a Data Base Management System (DBMS). |