Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais
Show simple item record
| dc.contributor |
Universidade Federal de Santa Catarina. |
pt_BR |
| dc.contributor.advisor |
Panisson, Alison Roberto |
|
| dc.contributor.author |
Martins, Gustavo Guidi Venâncio |
|
| dc.date.accessioned |
2025-12-11T17:19:11Z |
|
| dc.date.available |
2025-12-11T17:19:11Z |
|
| dc.date.issued |
2025-12-02 |
|
| dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/270931 |
|
| dc.description |
TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Engenharia de Computação. |
pt_BR |
| dc.description.abstract |
Este trabalho apresenta uma arquitetura modular para detecção, agrupamento e
classificação de componentes visuais em imagens de interfaces gráficas. O objetivo é
reconhecer elementos como ícones, botões e campos de texto de forma interpretável,
combinando técnicas clássicas de visão computacional com modelos de linguagem
multimodais recentes. Na primeira fase, as telas passam por pré-processamento com
equalização de histograma e filtros Gaussianos, e os operadores de Prewitt e Scharr são
aplicados para estimar gradientes horizontais e verticais, realçando transições bruscas
de intensidade. Em seguida, aplicam-se operações morfológicas, uma estrutura de dados
do tipo união-e-busca e heurísticas geométricas para converter os mapas de bordas em
caixas delimitadoras bem definidas, que agrupam pixels conectados em candidatos a
componentes de interface. Nas fases posteriores, o modelo open source Qwen2.5-VL-7B,
é utilizado para analisar cada grupo considerando o contexto visual completo da
tela, filtrando ruídos, sugerindo novas combinações entre subconjuntos relacionados
e atribuindo rótulos semânticos aos elementos identificados. Um pós-processamento
heurístico remove sobreposições redundantes e corrige inconsistências, consolidando
uma representação final mais próxima da forma como um usuário enxerga a interface.
Os resultados experimentais indicam que a integração entre detecção de bordas baseada
em operadores clássicos e raciocínio multimodal melhora a cobertura dos componentes
e a acurácia das classes atribuídas, ao mesmo tempo em que produz saídas estruturadas
e fáceis de inspecionar para uso em aplicações de análise ou automação de interfaces.
O trabalho contribui com uma arquitetura modular de quatro fases para detecção
e classificação de componentes de UI, integrando visão computacional e VLMs em
zero-shot, validada em telas reais e com foco em interpretabilidade e estruturação
semelhante a um DOM. |
pt_BR |
| dc.language.iso |
por |
pt_BR |
| dc.publisher |
Araranguá, SC. |
pt_BR |
| dc.rights |
Open Access. |
en |
| dc.subject |
visão computacional |
pt_BR |
| dc.subject |
detecção de objetos |
pt_BR |
| dc.subject |
interfaces gráficas |
pt_BR |
| dc.subject |
modelos multimodais |
pt_BR |
| dc.title |
Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais |
pt_BR |
| dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar