Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais
Show full item record
|
Title:
|
Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais |
|
Author:
|
Martins, Gustavo Guidi Venâncio
|
|
Abstract:
|
Este trabalho apresenta uma arquitetura modular para detecção, agrupamento e
classificação de componentes visuais em imagens de interfaces gráficas. O objetivo é
reconhecer elementos como ícones, botões e campos de texto de forma interpretável,
combinando técnicas clássicas de visão computacional com modelos de linguagem
multimodais recentes. Na primeira fase, as telas passam por pré-processamento com
equalização de histograma e filtros Gaussianos, e os operadores de Prewitt e Scharr são
aplicados para estimar gradientes horizontais e verticais, realçando transições bruscas
de intensidade. Em seguida, aplicam-se operações morfológicas, uma estrutura de dados
do tipo união-e-busca e heurísticas geométricas para converter os mapas de bordas em
caixas delimitadoras bem definidas, que agrupam pixels conectados em candidatos a
componentes de interface. Nas fases posteriores, o modelo open source Qwen2.5-VL-7B,
é utilizado para analisar cada grupo considerando o contexto visual completo da
tela, filtrando ruídos, sugerindo novas combinações entre subconjuntos relacionados
e atribuindo rótulos semânticos aos elementos identificados. Um pós-processamento
heurístico remove sobreposições redundantes e corrige inconsistências, consolidando
uma representação final mais próxima da forma como um usuário enxerga a interface.
Os resultados experimentais indicam que a integração entre detecção de bordas baseada
em operadores clássicos e raciocínio multimodal melhora a cobertura dos componentes
e a acurácia das classes atribuídas, ao mesmo tempo em que produz saídas estruturadas
e fáceis de inspecionar para uso em aplicações de análise ou automação de interfaces.
O trabalho contribui com uma arquitetura modular de quatro fases para detecção
e classificação de componentes de UI, integrando visão computacional e VLMs em
zero-shot, validada em telas reais e com foco em interpretabilidade e estruturação
semelhante a um DOM. |
|
Description:
|
TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Engenharia de Computação. |
|
URI:
|
https://repositorio.ufsc.br/handle/123456789/270931
|
|
Date:
|
2025-12-02 |
Files in this item
This item appears in the following Collection(s)
Show full item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar