Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave

Repositório institucional da UFSC

A- A A+

Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave

Mostrar registro completo

Título: Avaliação de métodos de data mining e regressão logística aplicados na análise de traumatismo cranioencefálico grave
Autor: Garcia, Merisandra Côrtes de Mattos
Resumo: O traumatismo cranioencefálico é um problema de saúde pública constituindo-se em uma das principais causas de morbidade e mortalidade no Brasil e no mundo. A análise das relações entre as suas consequências tem despertado interesse em pesquisas na área, a fim de se identificar os indicadores que auxiliam no seu prognóstico, buscandose evitar o óbito. Estes modelos são tradicionalmente gerados por meio da regressão logística que tem se constituído em uma técnica padrão para análise dos dados em saúde. No entanto, os modelos prognósticos em traumatismo cranioencefálico, como o grave que é o foco desta pesquisa, não conseguem acurácia elevada para a predição do óbito por meio da regressão logística. Sabendo-se disso, avanços em termos da acuracidade da predição podem auxiliar no prognóstico e conduta das pessoas acometidas por traumatismo cranioencefálico do tipo grave. A descoberta de conhecimento em bases de dados por meio da etapa de data mining e da integração de técnicas de diferentes áreas como inteligência computacional, reconhecimento de padrões, aprendizado de máquina, estatística e banco de dados, constitui-se em uma alternativa para identificar as relações nestes conjuntos de dados. Considerando-se isto, esta pesquisa consiste na avaliação comparativa de diferentes métodos de data mining, a fim de se analisar os modelos gerados e compará-los com o de regressão logística, em uma mesma população de estudo. Nesta pesquisa, se objetiva identificar padrões válidos, avaliando se os métodos de data mining empregados se mostram como uma alternativa à regressão logística, baseando-se em critérios de avaliação como acurácia e robustez, os quais se constituem em medidas de qualidade dos padrões descobertos. Os métodos de data mining empregados referem-se a indução de árvores de decisão por meio dos algoritmos C4.5 e Classification And Regression Trees; o aprendizado baseado em instâncias pelo algoritmo k-vizinhos mais próximos; as redes neurais artificiais por Funções de Base Radial; os classificadores bayesianos pelos algoritmos Naive Bayes e Redes de Crença Bayesiana e o metaclassificador pelo algoritmo Adaptive Boosting. No desenvolvimento foram gerados modelos de prognóstico do óbito em traumatismo cranioencefálico grave por meio dos algoritmos supracitados, como também pela regressão logística binária. Os modelos gerados na etapa de data mining foram comparados aplicando-se as medidas de avaliação de desempenho (verdadeiros positivos, verdadeiros negativos, acurácia, sensibilidade e especificidade) e de confiabilidade (coeficiente de concordância kappa e área sob a ReceiverOperating Characteristic Curve). Na comparação entre os modelos de data mining elencados com maior poder de discriminação em relação a regressão logística, utilizaram-se as medidas de confiabilidade citadas anteriormente, considerando-se Intervalos de Confiança de 95%. Dentre as análises realizadas, nos modelos gerados para predição do óbito em traumatismo cranioencefálico grave, os classificadores bayesianos destacaram-se apresentando medidas de desempenho significativamente mais representativas. O modelo gerado pelo algoritmo Naive Bayes destacou-se em relação aos demais métodos de data mining empregados, bem como quando comparado com o modelo de regressão logística binária, classificando corretamente o óbito em 58,2% (IC95%: 55,6- 61,8), a acurácia geral do modelo foi de 80,2% (IC95%: 76,9-85,7), sensibilidade de 72,7% (IC95%: 69,8-75,4), especificidade de 84,2% (IC95%: 81,6-87,5), área sob a Receiver-Operating Characteristic Curve de 0,851 (IC95%: 0,832-0,870) e coeficiente de concordância Kappa 0,530 (IC95%: 0,519-0,541). Comparando-se os resultados, o algoritmo Naive Bayes mostrou-se, no conjunto de dados estudado, significativamente mais representativo que o modelo de regressão logística binária e os outros modelos de data mining. <br>Abstract : Traumatic brain injury is a public health problem thus becoming a major cause of morbidity and mortality in Brazil and worldwide. The analysis of relations between its consequences has stimulated researches in the area, in order to identify indicators that help its prognosis, seeking avoid death. These models are traditionally generated by logistic regression that has been constituted as a standard technique for analysis of health data. However, the prognostic models in traumatic brain injury, such as severe which is the focus of this research, can not have a high accuracy for prediction of death by logistic regression. Knowing this, advances in terms of prediction accuracy may aid in prognosis and management of people affected by severe brain injury. The knowledge discovery in databases by data mining step and integration of techniques from different areas such as computational intelligence, pattern recognition, machine learning, statistical and database, constitutes an alternative to identify relationships in the data sets. Considering this, this research consists on the comparative evaluation of different data mining methods in order to analyze the generated models and compare them with logistic regression, in the same study population. In this research, the objective is to identify valid standards, assessing whether the data mining methods used are shown as an alternative to logistic regression, based on evaluation criteria such as accuracy and robustness, which constitute quality measures of the discovered patterns. The data mining methods employed refer to decision tree induction through C4.5 algorithms and Classification And Regression Trees; learning based on instances by knearest neighbors algorithm; artificial neural networks Radial Basis Function; Bayesian classifiers by algorithms Naive Bayes and Bayesian Belief Networks and the metaclassificador by Adaptive Boosting algorithm. In the development were generated death of prognostic models in severe traumatic brain injury through the aforesaid algorithms, but also by binary logistic regression. The models in data mining stage were compared applying the performance evaluation measures (true positives, true negatives, accuracy, sensitivity and specificity) and reliability (kappa coefficient and area under the Receiver Operating Characteristic Curve). Comparing the data mining models listed with major discrimination in relation to logistic regression, we used the reliability of measurements mentioned above, considering 95% confidence intervals. Among the analyzes, the generated models for prediction of death in severe traumatic brain injury, the Bayesian classifiers stood out, presenting performance measures significantly more representative. The model generated by Naive Bayes algorithm stood out in relation to other data mining methods employed, as well as when compared to the binary logistic regression model, correctly classifying the death in 58,2% (CI95%: 55,6-61,8), the overall accuracy of the model was 80,2% (CI95%: 76,9-85,7), sensitivity of 72,7% (CI95%: 69,8-75,4), specificity of 84,2% (CI95%: 81,6-87,5), area under the Receiver Operating Characteristic Curve of 0,851 (CI95%: 0,832-0,870) and Kappa coeficient of agreement 0,530 (CI95%: 0,519-0,541). Comparing the results, the Naive Bayes algorithm proved, in the data set studied, significantly more representative than the model of binary logistic regression and other data mining models.
Descrição: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2015
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/157297
Data: 2015


Arquivos deste item

Arquivos Tamanho Formato Visualização
336613.pdf 2.670Mb PDF Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro completo

Buscar DSpace


Busca avançada

Navegar

Minha conta

Estatística

Compartilhar