Análise de métodos de similaridade utilizando PLN: estudo de caso para identificar duplicidades nas demandas de compras de uma universidade pública

DSpace Repository

A- A A+

Análise de métodos de similaridade utilizando PLN: estudo de caso para identificar duplicidades nas demandas de compras de uma universidade pública

Show full item record

Title: Análise de métodos de similaridade utilizando PLN: estudo de caso para identificar duplicidades nas demandas de compras de uma universidade pública
Author: Forbici, Fernanda
Abstract: Problemas recorrentes no setor de compras de instituições públicas, como por exemplo, a aquisição de um mesmo insumo com preços distintos e a dificuldade em consolidar demandas em função de descrições divergentes de um mesmo material, decorrem, em grande parte, da duplicidade nos cadastros destes insumos com nomenclaturas diferentes. Com intuito de mitigar essas dificuldades, este trabalho consiste em um estudo de caso aplicado, onde foi desenvolvida uma ferramenta baseada em Processamento de Linguagem Natural (PLN) visando à recuperação de informações e suporte no processo de aquisição de bens e serviços no departamento de compras de uma universidade pública. Foram utilizadas técnicas de PLN com word embeddings estáticos e dinâmicos para detectar a similaridade dos termos neste contexto específico. Para identificar a capacidade de recuperar termos similares ao termo de busca, foram gerados vetores indexados das descrições dos materiais, por meio dos corpora pré-treinados em português (disponibilizados pelo NILC nos modelos estáticos, e o BERTimbau - neuralmind/bert-large-portuguese-cased no modelo dinâmico BERT) ou multilingual (sentence-transformers/paraphrase-multilingual-mpnet-base-v2 no modelo dinâmico SBERT). Em geral, a comparação de similaridade entre termos de busca e termos alvo, apresentaram um percentual de similaridade acima de 90% no modelo dinâmico BERT. Verificou-se que os percentuais de similaridade para termos comuns, entre termo de busca e termo alvo, eram maiores que a comparação da similaridade entre termos técnicos. A consolidação dos itens classificados com Random Forest, baseado nos embeddings das descrições apresentou acurácia, precisão, recall e F1-Score acima de 0.96, mas para novos itens algumas correspondências incorretas foram constatadas, como, por exemplo, a classificação de água mineral sem gás no grupo de "PRODUTOS E COMPONENTES QUÍMICOS E BIOLÓGICOS" ou aparelho estereotáxico no grupo "RECREAÇÃO, DESPORTO E MATERIAL ARTÍSTICO". Esta pesquisa contribuiu para identificar os avanços dos word embeddings dinâmicos, em um contexto e idioma específico, em relação aos modelos anteriores, bem como sua eficiência na classificação, com pouco esforço demandado. Foi possível notar em testes com alguns termos técnicos ou específicos que há oportunidade de continuidade da pesquisa para adaptações com técnicas que possam melhorar a acurácia da similaridade semântica da recuperação destes tipos de termos.Abstract: Recurring issues in the procurement processes of public institutions, such as the acquisition of identical inputs at varying prices and challenges in consolidating demands due to divergent descriptions of the same material, are often attributed to duplicated records of these inputs under inconsistent nomenclatures. To address these challenges, this study presents an applied case study in which a tool leveraging Natural Language Processing (NLP) was developed to enhance information retrieval and support the procurement of goods and services within the purchasing department of a public university. The methodology incorporated NLP techniques with static and dynamic word embeddings to detect term similarity in this specific context. Indexed vectors of material descriptions were generated using pre-trained corpora in Portuguese (provided by NILC for static models and BERTimbau - neuralmind/bert-large-portuguese-cased for the dynamic BERT model) as well as multilingual corpora (sentence-transformers/paraphrase-multilingual-mpnet-base-v2 for the dynamic SBERT model). Overall, the comparison of similarity between search terms and target terms demonstrated similarity scores exceeding 90% in the dynamic BERT model. It was observed that similarity scores for common terms were higher compared to technical terms. The classification of items using Random Forest, based on description embeddings, achieved accuracy, precision, recall, and F1-Score above 0.96. However, for new items, some misclassifications were identified, such as the assignment of still mineral water to the group "CHEMICAL AND BIOLOGICAL PRODUCTS AND COMPONENTS" or a stereotactic device to "RECREATION, SPORTS AND ARTISTIC MATERIAL". This research contributes to the understanding of the advancements in dynamic word embeddings within a specific linguistic and contextual setting, highlighting their efficiency in classification with minimal effort. Nevertheless, the findings also indicate opportunities for further investigation into techniques that could enhance the semantic similarity accuracy in retrieving technical and specialized terms.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia e Gestão do Conhecimento, Florianópolis, 2024.
URI: https://repositorio.ufsc.br/handle/123456789/264137
Date: 2024


Files in this item

Files Size Format View
PEGC0854-D.pdf 4.204Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar