Inteligência artificial para revisões sistemáticas em farmacologia: desenvolvimento de um protocolo para extração de dados pré-clínicos de estudos primários

DSpace Repository

A- A A+

Inteligência artificial para revisões sistemáticas em farmacologia: desenvolvimento de um protocolo para extração de dados pré-clínicos de estudos primários

Show full item record

Title: Inteligência artificial para revisões sistemáticas em farmacologia: desenvolvimento de um protocolo para extração de dados pré-clínicos de estudos primários
Author: Hamze, Fatima Carolina
Abstract: O uso de modelos animais na pesquisa biomédica é essencial para o avanço da farmacologia, mas enfrenta desafios críticos de reprodutibilidade e translação clínica. Diante do fenômeno da ?publômica?, ou o crescimento exponencial de dados científicos que torna a síntese manual humana virtualmente impossível, as revisões sistemáticas (RS) consolidaram-se no topo da pirâmide de evidências e como aliadas dos princípios dos 3Rs (Substituição, Redução e Refinamento). No entanto, a eficiência das RS é limitada pelo gargalo metodológico da extração manual de dados, uma etapa lenta, exaustiva e sujeita a erros. Este estudo propôs e validou um protocolo computacional híbrido, utilizando as linguagens R e Python integradas a Grandes Modelos de Linguagem (LLMs), especificamente o ChatGPT e o Gemini 2.5 Pro, para automatizar a extração de variáveis farmacológicas em estudos pré-clínicos sobre a neurogênese hipocampal induzida por antidepressivos. A metodologia consistiu em um processo de engenharia de prompt iterativa para mitigar a natureza estocástica das IAs, aplicando restrições contra alucinações e padronizando a saída de dados sob a estratégia PICO. Para garantir a integridade estatística, foi aplicado um algoritmo de resolução de entidades para o alinhamento de estudos e funções de tratamento de dados para desagregar experimentos agrupados e padronizar termos e mitigar as variações terminológicas. Os resultados mostraram a superioridade temporal da automação: enquanto a extração manual de 26 artigos demandou aproximadamente 26 horas de trabalho ativo distribuídas em 12 semanas, os modelos de IA realizaram a tarefa em uma média de 10 segundos por ciclo. O Gemini 2.5 Pro destacou-se pela fluidez do processo e a capacidade processar a amostra integral em ciclo único devido à sua janela de contexto massiva, enquanto o ChatGPT foi limitado por restrições comerciais de upload diário. A validação técnica revelou que a acurácia é dependente da natureza do dado. O Gemini 2.5 Pro apresentou desempenho superior, com F1-scores acima de 80% na maioria das variáveis e concordância Kappa quase perfeita para espécie (100%), linhagem (98%) e tipo de fármaco (97%). Em contrapartida, ambos os modelos enfrentaram dificuldades em variáveis quantitativas e lógicas, como doses e regimes de injeção, com o ChatGPT atingindo apenas 36% de F1-score na identificação de frequências de tratamento. O erro predominante foi a omissão (falso negativo) em vez da invenção ou alucinação (falso positivo), muitas vezes resultando em classificação equivocada de dados existentes como não reportados (NR) pela IA. Além disso, observou-se a reprodução de vieses sistêmicos aonde, por vezes, as IAs retornaram informações que são mais frequentes na literatura ao invés da informação de interesse na amostra de artigos aplicados. Conclui-se que a IA deve ser adotada como um ?auxiliar? em um modelo híbrido, onde o trabalho pesado de mineração é automatizado, mas a auditoria final permanece humana. Sob a essa ótica, o protocolo valida a tecnologia como meio de acelerar revisões tradicionais e revisões vivas, ajudando a evitar o uso redundante de animais em pesquisas cujas respostas já se encontram dispersas no dilúvio de dados científicos que já estão publicados.Abstract: The use of animal models in biomedical research is essential for the advancement of pharmacology but faces critical challenges regarding reproducibility and clinical translation. Faced with the phenomenon of ?publomics?, or the exponential growth of scientific data that makes manual human synthesis virtually impossible, systematic reviews (SRs) have established themselves at the apex of the evidence pyramid and as allies of the 3Rs principles (Replacement, Reduction, and Refinement). However, the efficiency of SRs is limited by the methodological bottleneck of manual data extraction, a slow, exhaustive, and error-prone stage. This study proposed and validated a hybrid computational protocol using R and Python integrated with Large Language Models (LLMs), specifically ChatGPT and Gemini 2.5 Pro, to automate the extraction of pharmacological variables in preclinical studies regarding the hippocampal neurogenesis of antidepressants. The methodology consisted of an iterative prompt engineering process to mitigate the stochastic nature of AIs, applying constraints against hallucinations and standardizing data output under the PICO strategy. To ensure statistical integrity, a best-fit algorithm was developed for study alignment, along with data-handling functions to disaggregate grouped experiments and standardize terms to mitigate terminological variations. The results demonstrated the temporal superiority of automation: while the manual extraction of 26 articles required approximately 26 hours of active work distributed over 12 weeks, the AI models performed the task in an average of 10 seconds per cycle. Gemini 2.5 Pro stood out for its process fluidity and the ability to process the entire sample in a single cycle due to its massive context window, while ChatGPT was limited by commercial daily upload restrictions. Technical validation revealed that accuracy is dependent on the nature of the data. Gemini 2.5 Pro showed superior performance, with F1-scores above 80% for most variables and almost perfect Kappa agreement for species (100%), strain (98%), and drug type (97%). Conversely, both models struggled with quantitative and logical variables, such as doses and injection regimens, with ChatGPT achieving only a 36% F1-score in identifying treatment frequencies. The predominant error was omission (false negative) rather than invention or hallucination (false positive), often resulting in the AI misclassifying existing data as \"not reported\" (NR). Furthermore, the reproduction of systemic biases was observed, where AIs occasionally returned information that is more frequent in the literature instead of the specific information of interest within the sampled articles. It is concluded that AI should be adopted as an \"assistant\" in a hybrid model, where the heavy mining work is automated, but the final audit remains human. Under this perspective, the protocol validates the technology as a means to accelerate traditional and living reviews, helping to avoid the redundant use of animals in research whose answers are already dispersed within the deluge of published scientific data.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências Biológicas, Programa de Pós-Graduação em Farmacologia, Florianópolis, 2025.
URI: https://repositorio.ufsc.br/handle/123456789/273202
Date: 2026


Files in this item

Files Size Format View
PFMC0504-D.pdf 4.114Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar