Title: | Elements of learning theory and their application in the prediction of malignancy of breast lesions |
Author: | Fröhlich, Alek |
Abstract: |
A estratégia atual de controle do câncer de mama no sistema público de saúde brasileiro depende da determinação manual de escores BI-RADS para avaliação de malignidade durante exames de ultrassom, frequentemente resultando em biópsias desnecessárias. A previsão de malignidade a partir de características clínicas e de ultrassom poderia aliviar a carga de trabalho dos patologistas e compensar lacunas de habilidade em médicos iniciantes ou não especialistas. Métodos de aprendizagem de máquina têm se mostrado promissores no uso de características de ultrassom de modo B para previsão de malignidade de lesões de mama. Nesta dissertação, discutimos elementos da teoria de aprendizagem de máquina, incluindo desigualdades de concentração e dimensão VC, que são conceitos-chave para a análise de propriedades de generalização de algoritmos de aprendizagem. Em seguida, mostramos como tais conceitos podem ser usados para elaboração de cotas de generalização para os valores preditivos. Em cenários com grandes tamanhos de amostra e pequena dimensão VC, um estudo de validação baseado nessas cotas de generalização seria possível. Também apresentamos uma abordagem baseada em gradient boosting para identificação de lesões benignas, que incorpora características clínicas, baseadas em Doppler e clássicas de ultrassom em modo B. Um classificador XGBoost foi treinado com dados de 1929 lesões de mama obtidas a partir de uma coorte de pacientes de quatro centros de referência de câncer de mama no Brasil. Nosso classificador alcançou uma área sob a curva de precisão-recall média (AUPRC) de 0,95 e boa calibração em validação cruzada repetida de 5 folds. Nosso trabalho fornece uma solução baseada em gradient boosting promissora que pode beneficiar a prática clínica. Embora não seja aplicável para estimar o erro de generalização das curvas de valor preditivo em nosso problema, devido a um tamanho de amostra insuficiente e à falta de precisão nas estimativas atuais para a dimensão VC de gradient boosted regression trees, as ferramentas matemáticas desenvolvidas nesta dissertação são de extrema importância para o design de algoritmos de aprendizagem confiáveis e podem ser aplicadas a uma gama mais ampla de problemas do que os considerados nesta dissertação. Abstract: The current breast cancer control strategy employed in the Brazilian public health system relies on manual determination of BI-RADS scores by clinicians to assess malignancy during ultrasound examinations, often leading to unnecessary biopsies. Predicting malignancy from clinical and ultrasound features could ease pathologists? workload and offset skill gaps in beginner or non-specialist physicians. Machine learning has shown promise in using B-mode ultrasound features to predict breast lesion malignancy. In this thesis, we discuss elements from the theory of machine learning, including concentration inequalities and VC dimension, which are key concepts to analyse the generalization properties of learning algorithms. Then, we show how such concepts can be used to devise generalization bounds for the predictive values. In scenarios with large sample sizes and small VC dimension, a learning-theoretical validation study based on these predictive value generalization bounds would be possible. We also present a gradient boosting approach for identifying benign lesions that incorporates both clinical and Doppler-based features alongside classical B-mode ultrasound features. An XGBoost classifier was trained with data from 1929 breast lesions obtained from a cohort of patients across four breast cancer reference centers in Brazil. Our classifier achieved a mean area under the precision-recall curve (AUPRC) of 0.95 and good calibration in repeated 5-fold cross-validation. Our work provides a promissing gradient boosting solution that may be of benefit to clinical practice. Although not applicable to the estimation of the generalization error of the predictive value curves in our problem due to an insufficient sample size and lack of tightness in current estimates of the VC dimension of gradient-boosted trees, the mathematical tools developed in this thesis are of utmost importance to the design of reliable learning algorithms and may be applied to a wider range of problems than the ones considered is this thesis. |
Description: | Dissertação (mestrado) ? Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2024. |
URI: | https://repositorio.ufsc.br/handle/123456789/260685 |
Date: | 2024 |
Files | Size | Format | View |
---|---|---|---|
PMTM0316-D.pdf | 8.700Mb |
View/ |