Identificação de assinatura gênica para classificação diagnóstica da doença de Parkinson idiopática utilizando transcriptomas de sangue periférico e algoritmos de aprendizado de máquina

Repositório institucional da UFSC

A- A A+

Identificação de assinatura gênica para classificação diagnóstica da doença de Parkinson idiopática utilizando transcriptomas de sangue periférico e algoritmos de aprendizado de máquina

Mostrar registro completo

Título: Identificação de assinatura gênica para classificação diagnóstica da doença de Parkinson idiopática utilizando transcriptomas de sangue periférico e algoritmos de aprendizado de máquina
Autor: Falchetti, Marcelo Luiz Brunatto
Resumo: No Brasil, anualmente, mais de 150 mil pessoas são diagnosticadas com a doença de Parkinson (DP). Apenas alguns casos da DP são hereditários e atribuídos a mutações em genes, enquanto a vasta maioria (~ 90%) é classificada como DP idiopática. O diagnóstico da DP ainda é um desafio na prática clínica, e a identificação de marcadores moleculares para diagnóstico e acompanhamento pode proporcionar um tratamento mais eficaz para os pacientes. Uma opção fácil e não invasiva é a biópsia líquida. A utilização de técnicas de biologia molecular de alto rendimento vinculadas as metodologias de meta-análise podem contribuir na busca de assinaturas transcricionais com potencial aplicação diagnóstica para a DP idiopática. Este estudo teve como objetivo caracterizar as diferenças no perfil transcricional do sangue periférico de pacientes com a DP e indivíduos sadios, e identificar genes capazes de auxiliar no diagnóstico da DP, utilizando algoritmos de aprendizado de máquina (AAM). Todas as análises foram realizadas em ambiente de análises estatísticas e gráficas R. Para isso, foram utilizados os dados de microarranjo de expressão obtidos em repositórios públicos (GEO e ArrayExpress). Foram selecionados 4 conjuntos de dados independentes incluindo 711 amostras no total, sendo 388 de sangue de pacientes com a DP idiopática e 323 de indivíduos sadios. Foram realizadas meta-análises de 17.712 genes calculando e combinando os seus tamanhos de efeito. Os 200 genes com os maiores valores de tamanho de efeito, ou seja, os de maior distinção em expressão entre os grupos analisados apresentam ontologias relacionadas ao sistema imune e imunidade mediada pelos leucócitos, poliubiquitinação de proteínas e organização do citoesqueleto. Os 200 genes não são capazes de separar as amostras de DP idiopático e indivíduos sadios quando individualmente avaliados por agrupamentos hierárquicos. Para caracterização de uma assinatura gênica da DP idiopática, foram utilizados algoritmos de seleção de preditores de reconhecimento de colinearidades e de eliminação de preditores recursivo. Para as análises de predição, as amostras foram separadas em dois grupos, o grupo-treino (GTr), utilizado para contruir e ajustar os modelos, e o grupo-teste (GTe), para estimar os desempenhos dos modelos. Para a correção do desbalanço amostral no GTr foram utilizados métodos de criação de amostras sintéticas para arquitetar mais 3 GTr equilibrados. Para criação dos modelos de classificação foram utilizados 9 AAM ajustados com um total de 18 hiperparâmetros. Por fim, foram eleitas as combinações de modelos e ajustes que dispunham dos maiores valores de áreas sob a curva ROC (AUC) para cada GTr. Dessa forma, foram selecionados 30 modelos capazes de classificar as amostras com AUC de 0,72 a 0,80. Para otimização dos resultados, foram calculadas as probabilidades de classe de amostras do GTe nos modelos com os maiores valores de sensibilidade e especificidade criados com cada GTr, e seguidamente filtradas as 25% com as menores probabilidades. Dessa forma, foram estabelecidos os valores mínimos de probabilidade para classificação e selecionados os modelos com os maiores valores mínimos. Os modelos escolhidos pós-otimização apresentaram 0,84 de sensibilidade e 0,88 de especificidade. A média de probabilidade de amostras serem de DP no modelo de maior sensibilidade é diferente de grupos de amostras de indivíduos sadios, da doença de Huntington e de formas genéticas da DP causadas por mutações nos genes LRRK2 e PRKN, porém análogas de grupos da doença de Alzheimer, da atrofia multissistêmica, da paralisia supranuclear progressiva e de formas genéticas da DP causadas por mutações nos genes ATP13A2 e PINK1. Elaborou-se uma sequência de operações alternativa para classificações de imagens que busca valorizar dados colineares. O modelo gerado utilizando este processo apresentou 84% de acertos. Apesar da variação amostral quanto aos tratamentos farmacológicos, idades, severidade da doença, a metodologia aplicada neste trabalho foi capaz identificar uma assinatura e modelos confiáveis na classificação da DP idiopática em amostras de sangue, o que pode fornecer base bioinformática para futuras otimizações.<br>Abstract : In Brazil, over 150,000 people are diagnosed annually with Parkinson's disease (PD). Only a few cases of PD are inherited and attributed to mutations in genes, while the vast majority (~ 90%) are classified as idiopathic PD. The diagnosis of PD is still a challenge in clinical practice, and the identification of molecular markers for diagnosis and follow-up may provide a more effective treatment for patients. An easy and noninvasive option is liquid biopsy. The use of high-throughput molecular biology techniques related to meta-analysis methodologies may contribute to the search for transcriptional signatures with potential diagnostic application for idiopathic PD. Therefore, this study aimed to characterize the differences in the transcriptional profile of peripheral blood of patients with PD and healthy individuals, and to identify genes capable of assisting in the PD diagnosis using machine learning algorithms (MLA). All the analyzes were carried out in the environment of statistical and graphic analysis R. For this, we used the gene expression microarray data obtained in public repositories (GEO and ArrayExpress). We identified 4 independent datasets including 711 samples in total, 388 of them were blood from patients with idiopathic PD and 323 from healthy individuals. Meta-analyzes of 17,712 genes were performed calculating and combining their effect sizes. The 200 genes with the highest effect size values, that is, those with the highest distinction in expression between the analyzed groups present ontologies related to the immune system and leukocyte mediated immunity, protein polyubiquitination and cytoskeleton organization. The 200 genes are not able to separate idiopathic PD samples and healthy individuals when individually assessed by hierarchical clustering. Algorithms of collinearity recognition and recursive predictor elimination were used to to characterize a gene signature of idiopathic PD. For the prediction analyzes, the samples were separated into two groups, the training group (TrG), used to construct and adjust the models, and the test group (TeG), to estimate the performance of models. For the correction of the sample, unbalance in the TrG, synthetic sample creation methods were used to architect three more balanced TrG. To create the classification models, 9 MLA were tuned with a total of 18 hyperparameters. Finally, the combinations of models and tunings that had the highest values of areas under the ROC curve (AUC) were chosen for each TrG. Thus, 30 models capable of classifying samples with AUC from 0.72 to 0.80 were selected. In order to optimize the results, the TeG sample class probabilities were calculated in the models with the highest values of sensitivity and specificity created with each TrG and then filtered the 25% with the lowest probabilities. This way, the minimum probability values for classification were established and the models with the highest minimum values were selected. The models chosen post-optimization presented 0.84 of sensitivity and 0.88 of specificity. The average probability of the samples being of PD in the highest sensitivity model is different from groups of samples from healthy individuals, from Huntington's disease and from PD genetic forms caused by mutations in the LRRK2 and PRKN genes. However, they seem to be analogous to the disease groups of Alzheimer's disease, multiple systemic atrophy, progressive supranuclear palsy and genetic forms of PD caused by mutations in the ATP13A2 and PINK1 genes. An alternative sequence of operations for classifying images that seeks to value collinear data was developed. The model generated using this process presented 84% of correct answers. Despite the sample variation in pharmacological treatments, ages, and disease severity, the methodology applied in this study was able to identify a reliable signature models for the classification of idiopathic PD in blood samples, which may provide a bioinformatic basis for future optimizations.
Descrição: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Farmacologia, Florianópolis, 2019.
URI: https://repositorio.ufsc.br/handle/123456789/215000
Data: 2019


Arquivos deste item

Arquivos Tamanho Formato Visualização
PFMC0386-D.pdf 5.570Mb PDF Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro completo

Buscar DSpace


Busca avançada

Navegar

Minha conta

Estatística

Compartilhar