Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

DSpace Repository

A- A A+

Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

Show simple item record

dc.contributor Universidade Federal de Santa Catarina pt_BR
dc.contributor.advisor Silva, Danilo
dc.contributor.author Reys, Arthur Deltregia
dc.date.accessioned 2020-11-25T17:44:08Z
dc.date.available 2020-11-25T17:44:08Z
dc.date.issued 2020-10-30
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/217873
dc.description TCC (graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Elétrica. pt_BR
dc.description.abstract A rotulação de registros clínicos eletrônicos com códigos CID é uma tarefa manual, cara e lenta. A atribuição de tais códigos é, entretanto, uma importante tarefa para fins de cobrança e organização de bancos de dados. Embora muitos trabalhos tenham estudado o problema de atribuição automática de códigos CID a partir de texto livre utilizando técnicas de aprendizado de máquina, grande parte utiliza registros em língua inglesa, especialmente provenientes do conjunto de dados público MIMIC-III. Este trabalho apresenta resultados para um conjunto de dados com notas clínicas em português brasileiro. São desenvolvidos e otimizados um modelo de Regressão Logística, uma Rede Neural Convolucional (CNN), uma Rede Neural Recorrente do tipo GRU (Gated Recurrent Unit) e uma CNN com Atenção (CNN-Att), para predição de códigos CID de diagnóstico. São também apresentados resultados dos mesmos modelos para o conjunto de dados MIMIC-III, os quais superam trabalhos anteriores entre modelos das mesmas famílias, além do estado da arte. Comparado ao MIMIC-III, o conjunto de dados em português brasileiro contém um número muito menor de palavras por documento, quando apenas sumários de alta são utilizados. Experimentos a partir da concatenação de documentos adicionais disponíveis nesse conjunto demonstram um grande incremento em performance. O modelo CNN-Att obtém os melhores resultados em ambos os conjuntos de dados, atingindo uma F1 em ponderação micro de 0.537 no MIMIC-III e 0.485 no conjunto de dados em português com documentos adicionais. pt_BR
dc.description.abstract ICD coding from electronic clinical records is a manual, expensive and time-consuming process. Code assignment is, however, an important task for billing purposes and database organization. While many works have studied the problem of automated ICD coding from free text using machine learning techniques, most use records in the English language, especially from the MIMIC-III public dataset. This work presents results for a dataset with Brazilian Portuguese clinical notes. A Logistic Regression model, a Convolutional Neural Network (CNN), a Gated Recurrent Unit Neural Network and a CNN with Attention (CNN-Att) are developed and optimized for prediction of diagnosis ICD codes. Results are also reported for the MIMIC-III dataset, which outperform previous work among models of the same families, as well as the state of the art. Compared to MIMIC-III, the Brazilian Portuguese dataset contains far fewer words per document, when only discharge summaries are used. Experiments concatenating additional documents available in this dataset achieve a great boost in performance. The CNN-Att model achieves the best results on both datasets, with micro-averaged F1 score of 0.537 on MIMIC-III and 0.485 on the Brazilian-Portuguese dataset with additional documents. pt_BR
dc.format.extent 60 f. pt_BR
dc.language.iso pt_BR pt_BR
dc.publisher Florianópolis, SC pt_BR
dc.rights Open Access
dc.subject Codificação CID pt_BR
dc.subject Notas clínicas pt_BR
dc.subject Processamento de linguagem natural pt_BR
dc.subject Classificação multi-rótulo pt_BR
dc.subject Redes neurais pt_BR
dc.title Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View
TCC.pdf 1.443Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar