Anonimização como pilar de segurança em interações com modelos de linguagem: potenciais e limitações

DSpace Repository

A- A A+

Anonimização como pilar de segurança em interações com modelos de linguagem: potenciais e limitações

Show full item record

Title: Anonimização como pilar de segurança em interações com modelos de linguagem: potenciais e limitações
Author: Sousa, Lucas Coelho Pini de
Abstract: O avanço das tecnologias de inteligência artificial e sua ampla disseminação intensi- ficam as preocupações quanto à proteção de informações pessoais de seus usuários. Organizações armazenam e processam diariamente grandes volumes de dados que, co- mumente, incluem informações pessoais, financeiras e de saúde. Seu manejo inade- quado pode comprometer direitos fundamentais e violar legislações como a Lei Geral de Proteção de Dados (LGPD) e a General Data Protection Regulation (GDPR). Tradi- cionalmente, as técnicas de anonimização baseiam-se em métodos como mascaramento, pseudonimização, generalização, perturbação de dados e introdução de dados sintéti- cos. Embora eficazes, essas abordagens enfrentam limitações, sobretudo em cenários de alta complexidade textual, nos quais informações pessoais podem aparecer de forma implícita e contextual. Nesse contexto, os recentes avanços no processamento de lin- guagem natural (PLN) e, em especial, dos modelos de linguagem de larga escala (Large Language Models - LLMs), os colocam como alternativas promissoras no auxílio da solução dessa problemática. A capacidade desses sistemas de compreender semantica- mente, realizar inferências contextuais e apoiar tarefas de classificação de texto reforça seu potencial para a detecção e anonimização automatizada de dados textuais. Este tra- balho tem como objetivo investigar a viabilidade do uso de modelos de linguagem para a detecção e anonimização automática de dados pessoais em texto. Pretende-se, assim, avaliar os potenciais e as limitações dessa abordagem.The advancement and widespread adoption of artificial intelligence technologies have intensified concerns regarding the protection of users’ personal information. Organi- zations routinely store and process large volumes of data, often including personal, financial, and health-related information. Improper handling of such data may com- promise fundamental rights and violate regulations such as Brazil’s General Data Pro- tection Law (LGPD) and the European Union’s General Data Protection Regulation (GDPR). Traditionally, anonymization relies on deterministic methods such as mask- ing, pseudonymization, generalization, data perturbation, and the use of synthetic data. Although effective in specific scenarios, these approaches face limitations in complex textual contexts, where personal information may appear implicitly or contextually. In this setting, recent advances in natural language processing (NLP) and, in particular, large language models (LLMs) position them as promising alternatives to address this challenge. Their ability to semantically understand content, perform contextual infer- ence, and support text classification tasks highlights their potential for the automated detection and anonymization of personal textual data. This study aims to investigate the feasibility of using language models for the automatic detection and anonymization of personal data in text, seeking to assess both the potentials and inherent limitations of this approach.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
URI: https://repositorio.ufsc.br/handle/123456789/270861
Date: 2025-12-10


Files in this item

Files Size Format View Description
TCC___Lucas_Pin ... otenciais_e_Limitações.pdf 1.355Mb PDF View/Open TCC Lucas Coelho Pini de Sousa

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account

Statistics

Compartilhar