|
Abstract:
|
A gestão eficiente da cadeia de suprimentos e do varejo depende intrinsecamente da iden
tificação precisa de mercadorias através do Número Global de Item Comercial (GTIN),
contudo, bases de dados reais frequentemente apresentam descrições ruidosas, incomple
tas e ausência de padronização. Este trabalho propõe o desenvolvimento de um sistema
automatizado para a normalização de descrições e a identificação unívoca de produtos,
utilizando técnicas avançadas de Processamento de Linguagem Natural (PLN) e Grandes
Modelos de Linguagem (LLMs). A metodologia adotada implementa uma abordagem
híbrida que combina a vetorização via TF-IDF e a similaridade de cosseno para a recupe
ração eficiente de candidatos, seguida por uma análise semântica e contextual realizada
por um LLM (GPT) para a validação e seleção final do código correto. O sistema desen
volvido realiza a limpeza, organização e deduplicação de catálogos, demonstrando eficácia
na mitigação de ambiguidades, erros ortográficos e variações de escrita comuns em docu
mentos fiscais e cadastros comerciais. Os resultados evidenciam que a integração entre
métodos clássicos de recuperação de informação e inteligência artificial generativa oferece
uma solução robusta e escalável para a qualificação de dados no varejo, superando as
limitações de abordagens puramente estatísticas. |