Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais

DSpace Repository

A- A A+

Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais

Show full item record

Title: Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais
Author: Martins, Gustavo Guidi Venâncio
Abstract: Este trabalho apresenta uma arquitetura modular para detecção, agrupamento e classificação de componentes visuais em imagens de interfaces gráficas. O objetivo é reconhecer elementos como ícones, botões e campos de texto de forma interpretável, combinando técnicas clássicas de visão computacional com modelos de linguagem multimodais recentes. Na primeira fase, as telas passam por pré-processamento com equalização de histograma e filtros Gaussianos, e os operadores de Prewitt e Scharr são aplicados para estimar gradientes horizontais e verticais, realçando transições bruscas de intensidade. Em seguida, aplicam-se operações morfológicas, uma estrutura de dados do tipo união-e-busca e heurísticas geométricas para converter os mapas de bordas em caixas delimitadoras bem definidas, que agrupam pixels conectados em candidatos a componentes de interface. Nas fases posteriores, o modelo open source Qwen2.5-VL-7B, é utilizado para analisar cada grupo considerando o contexto visual completo da tela, filtrando ruídos, sugerindo novas combinações entre subconjuntos relacionados e atribuindo rótulos semânticos aos elementos identificados. Um pós-processamento heurístico remove sobreposições redundantes e corrige inconsistências, consolidando uma representação final mais próxima da forma como um usuário enxerga a interface. Os resultados experimentais indicam que a integração entre detecção de bordas baseada em operadores clássicos e raciocínio multimodal melhora a cobertura dos componentes e a acurácia das classes atribuídas, ao mesmo tempo em que produz saídas estruturadas e fáceis de inspecionar para uso em aplicações de análise ou automação de interfaces. O trabalho contribui com uma arquitetura modular de quatro fases para detecção e classificação de componentes de UI, integrando visão computacional e VLMs em zero-shot, validada em telas reais e com foco em interpretabilidade e estruturação semelhante a um DOM.
Description: TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Engenharia de Computação.
URI: https://repositorio.ufsc.br/handle/123456789/270931
Date: 2025-12-02


Files in this item

Files Size Format View
TCC_UFSC__Gustavo___2025__assinado (1).pdf 5.711Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar