Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

Reys, Arthur Deltregia

Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

DSpace Repository

A- A A+

Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

Show simple item record

dc.contributor	Universidade Federal de Santa Catarina	pt_BR
dc.contributor.advisor	Silva, Danilo
dc.contributor.author	Reys, Arthur Deltregia
dc.date.accessioned	2020-11-25T17:44:08Z
dc.date.available	2020-11-25T17:44:08Z
dc.date.issued	2020-10-30
dc.identifier.uri	https://repositorio.ufsc.br/handle/123456789/217873
dc.description	TCC (graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Elétrica.	pt_BR
dc.description.abstract	A rotulação de registros clínicos eletrônicos com códigos CID é uma tarefa manual, cara e lenta. A atribuição de tais códigos é, entretanto, uma importante tarefa para fins de cobrança e organização de bancos de dados. Embora muitos trabalhos tenham estudado o problema de atribuição automática de códigos CID a partir de texto livre utilizando técnicas de aprendizado de máquina, grande parte utiliza registros em língua inglesa, especialmente provenientes do conjunto de dados público MIMIC-III. Este trabalho apresenta resultados para um conjunto de dados com notas clínicas em português brasileiro. São desenvolvidos e otimizados um modelo de Regressão Logística, uma Rede Neural Convolucional (CNN), uma Rede Neural Recorrente do tipo GRU (Gated Recurrent Unit) e uma CNN com Atenção (CNN-Att), para predição de códigos CID de diagnóstico. São também apresentados resultados dos mesmos modelos para o conjunto de dados MIMIC-III, os quais superam trabalhos anteriores entre modelos das mesmas famílias, além do estado da arte. Comparado ao MIMIC-III, o conjunto de dados em português brasileiro contém um número muito menor de palavras por documento, quando apenas sumários de alta são utilizados. Experimentos a partir da concatenação de documentos adicionais disponíveis nesse conjunto demonstram um grande incremento em performance. O modelo CNN-Att obtém os melhores resultados em ambos os conjuntos de dados, atingindo uma F1 em ponderação micro de 0.537 no MIMIC-III e 0.485 no conjunto de dados em português com documentos adicionais.	pt_BR
dc.description.abstract	ICD coding from electronic clinical records is a manual, expensive and time-consuming process. Code assignment is, however, an important task for billing purposes and database organization. While many works have studied the problem of automated ICD coding from free text using machine learning techniques, most use records in the English language, especially from the MIMIC-III public dataset. This work presents results for a dataset with Brazilian Portuguese clinical notes. A Logistic Regression model, a Convolutional Neural Network (CNN), a Gated Recurrent Unit Neural Network and a CNN with Attention (CNN-Att) are developed and optimized for prediction of diagnosis ICD codes. Results are also reported for the MIMIC-III dataset, which outperform previous work among models of the same families, as well as the state of the art. Compared to MIMIC-III, the Brazilian Portuguese dataset contains far fewer words per document, when only discharge summaries are used. Experiments concatenating additional documents available in this dataset achieve a great boost in performance. The CNN-Att model achieves the best results on both datasets, with micro-averaged F1 score of 0.537 on MIMIC-III and 0.485 on the Brazilian-Portuguese dataset with additional documents.	pt_BR
dc.format.extent	60 f.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Florianópolis, SC	pt_BR
dc.rights	Open Access
dc.subject	Codificação CID	pt_BR
dc.subject	Notas clínicas	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Classificação multi-rótulo	pt_BR
dc.subject	Redes neurais	pt_BR
dc.title	Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro	pt_BR
dc.type	TCCgrad	pt_BR

Files in this item

Files	Size	Format	View
TCC.pdf	1.443Mb	PDF	View/Open

Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

DSpace Repository

Predição de múltiplos códigos CID-10 a partir de notas clínicas em português brasileiro

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar