Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

DSpace Repository

A- A A+

Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

Show full item record

Title: Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro
Author: Reys, Arthur Deltregia
Abstract: A rotulação de registros clínicos eletrônicos com códigos CID é uma tarefa manual, cara e lenta. A atribuição de tais códigos é, entretanto, uma importante tarefa para fins de cobrança e organização de bancos de dados. Embora muitos trabalhos tenham estudado o problema de atribuição automática de códigos CID a partir de texto livre utilizando técnicas de aprendizado de máquina, grande parte utiliza registros em língua inglesa, especialmente provenientes do conjunto de dados público MIMIC-III. Este trabalho apresenta resultados para um conjunto de dados com notas clínicas em português brasileiro. São desenvolvidos e otimizados um modelo de Regressão Logística, uma Rede Neural Convolucional (CNN), uma Rede Neural Recorrente do tipo GRU (Gated Recurrent Unit) e uma CNN com Atenção (CNN-Att), para predição de códigos CID de diagnóstico. São também apresentados resultados dos mesmos modelos para o conjunto de dados MIMIC-III, os quais superam trabalhos anteriores entre modelos das mesmas famílias, além do estado da arte. Comparado ao MIMIC-III, o conjunto de dados em português brasileiro contém um número muito menor de palavras por documento, quando apenas sumários de alta são utilizados. Experimentos a partir da concatenação de documentos adicionais disponíveis nesse conjunto demonstram um grande incremento em performance. O modelo CNN-Att obtém os melhores resultados em ambos os conjuntos de dados, atingindo uma F1 em ponderação micro de 0.537 no MIMIC-III e 0.485 no conjunto de dados em português com documentos adicionais.ICD coding from electronic clinical records is a manual, expensive and time-consuming process. Code assignment is, however, an important task for billing purposes and database organization. While many works have studied the problem of automated ICD coding from free text using machine learning techniques, most use records in the English language, especially from the MIMIC-III public dataset. This work presents results for a dataset with Brazilian Portuguese clinical notes. A Logistic Regression model, a Convolutional Neural Network (CNN), a Gated Recurrent Unit Neural Network and a CNN with Attention (CNN-Att) are developed and optimized for prediction of diagnosis ICD codes. Results are also reported for the MIMIC-III dataset, which outperform previous work among models of the same families, as well as the state of the art. Compared to MIMIC-III, the Brazilian Portuguese dataset contains far fewer words per document, when only discharge summaries are used. Experiments concatenating additional documents available in this dataset achieve a great boost in performance. The CNN-Att model achieves the best results on both datasets, with micro-averaged F1 score of 0.537 on MIMIC-III and 0.485 on the Brazilian-Portuguese dataset with additional documents.
Description: TCC (graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Elétrica.
URI: https://repositorio.ufsc.br/handle/123456789/217873
Date: 2020-10-30


Files in this item

Files Size Format View
TCC.pdf 1.443Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar