| Title: | Engenharia de Prompt para Extração de Fatores Jurídicos: Validação e Otimização de uma Metodologia com Modelos de Linguagem de Grande Escala no Projeto CONCIL-IA |
| Author: | Santos, Guilherme de Brito |
| Abstract: |
Este trabalho, caracterizado como aprofundamento de um estudo de caso, investiga o processo de engenharia de prompt para extração automatizada de fatores jurídicos a partir de decisões judiciais não estruturadas. A pesquisa integra o projeto CONCIL-IA, iniciativa que busca automatizar a estruturação de dados jurídicos para viabilizar o treinamento de modelos de análise preditiva. O objetivo central consiste em estimar valores de indenização por danos morais em litígios de transporte aéreo, fornecendo subsídio técnico para auxiliar conciliadores e fomentar a resolução consensual de disputas. A investigação aborda dois problemas: se o processo iterativo de engenharia de prompt influencia o desempenho de um Modelo de Linguagem de Grande Escala (Large Language Model) (LLM) na extração dos fatores e quais falhas persistem; e se estratégias de otimização podem corrigir tais falhas. As hipóteses confirmadas, postularam que o processo iterativo capacita o LLM a realizar a extração com precisão, embora com falhas, e que o aprimoramento foi observado mediante estratégias que reduzem a carga cognitiva do modelo, pela fusão de fatores e reestruturação da lógica de saída. Adotando a indução como método de abordagem, os procedimentos metodológicos articularam pesquisa bibliográfica e documental com estudo de caso que, em sua segunda fase, assumiu caráter experimental, com técnicas de análise baseadas em avaliação quantitativa comparativa. A investigação partiu da construção de um ground truth elaborado manualmente por especialistas e desdobrou-se em duas fases experimentais. O Experimento Principal analisou o refinamento iterativo de um prompt geral, confirmando a primeira hipótese ao elevar a acurácia geral para 91,5%, porém revelando falhas persistentes na extração de fatores minoritários e erro sistemático na extração de dimensões numéricas. O Experimento Secundário foi concebido para solucionar essas falhas, testando hipóteses de otimização através de prompts especializados que exploraram a fusão estratégica de fatores e a reestruturação da lógica de saída. Os resultados corroboraram a segunda hipótese, estabelecendo o prompt atraso5 como a referência metodológica deste estudo. Esta versão otimizada apresentou o melhor equilíbrio entre integridade dos registros, alcançando a maior Acurácia por Sentença do estudo e estabilidade dos fatores numéricos ao solucionar a falha relacionada ao Root Mean Square Error (Erro Quadrático Médio Raiz) (RMSE). Adicionalmente, a investigação expôs a fragilidade do formato CSV como limitação estrutural que impacta a qualidade da extração. As conclusões demonstram que o processo metodológico iterativo influencia a eficácia da extração e que a evolução da área demanda paradigmas alternativos, como Markdown para estruturação de entrada e JSON Schema para padronização de saída. O trabalho contribui com a documentação de um roteiro metodológico na aplicação de LLMs à estruturação de dados jurídicos não estruturados. This work, characterized as an in-depth case study, investigates the prompt engineering process for automated extraction of legal factors from unstructured judicial decisions. The research is part of the CONCIL-IA project, an initiative that seeks to automate the structuring of legal data to enable the training of predictive analysis models. The central objective consists of estimating compensation values for moral damages in air transport litigation, providing technical support to assist conciliators and foster consensual dispute resolution. The investigation addresses two problems: whether the iterative prompt engineering process influences the performance of an Large Language Model (LLM) in factor extraction and which failures persist; and whether optimization strategies can correct such failures. The hypotheses, confirmed, postulated that the iterative process enables the LLM to perform extraction with precision, albeit with failures, and that improvement was observed through strategies that reduce the cognitive load of the model, by merging factors and restructuring output logic. Adopting induction as the approach method, the methodological procedures articulated bibliographic and documentary research with a case study that, in its second phase, assumed an experimental character, with analysis techniques based on comparative quantitative evaluation. The investigation started from the construction of a ground truth manually elaborated by specialists and unfolded into two experimental phases. The Main Experiment analyzed the iterative refinement of a general prompt, confirming the first hypothesis by raising overall accuracy to 91.5%, yet revealing persistent failures in the extraction of minority factors and systematic error in the extraction of numerical dimensions. The Secondary Experiment was designed to solve these failures, testing optimization hypotheses through specialized prompts that explored strategic factor merging and output logic restructuring. The results corroborated the second hypothesis, establishing the atraso5 prompt as the methodological reference of this study. This optimized version presented the best balance between record integrity, achieving the highest Sentence Accuracy of the study, and stability of numerical factors by solving the critical failure related to Root Mean Square Error (RMSE). Additionally, the investigation exposed the fragility of the CSV format as a structural limitation that impacts extraction quality. The conclusions demonstrate that iterative methodological rigor influences extraction efficacy and that the evolution of the field demands alternative paradigms, such as Markdown for input structuring and JSON Schema for output standardization. The work contributes with a documentation of an methodological roadmap about the application of LLMs to the structuring of unstructured legal data. |
| Description: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro de Ciências Jurídicas, Direito. |
| URI: | https://repositorio.ufsc.br/handle/123456789/271803 |
| Date: | 2025-11-25 |
| Files | Size | Format | View | Description |
|---|---|---|---|---|
| TCC_Versaofinal_Publicacao.pdf | 816.6Kb |
View/ |
TCC - Guilherme de Brito Santos |