Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais

DSpace Repository

A- A A+

Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais

Show simple item record

dc.contributor Universidade Federal de Santa Catarina. pt_BR
dc.contributor.advisor Panisson, Alison Roberto
dc.contributor.author Martins, Gustavo Guidi Venâncio
dc.date.accessioned 2025-12-11T17:19:11Z
dc.date.available 2025-12-11T17:19:11Z
dc.date.issued 2025-12-02
dc.identifier.uri https://repositorio.ufsc.br/handle/123456789/270931
dc.description TCC (graduação) - Universidade Federal de Santa Catarina, Campus Araranguá, Engenharia de Computação. pt_BR
dc.description.abstract Este trabalho apresenta uma arquitetura modular para detecção, agrupamento e classificação de componentes visuais em imagens de interfaces gráficas. O objetivo é reconhecer elementos como ícones, botões e campos de texto de forma interpretável, combinando técnicas clássicas de visão computacional com modelos de linguagem multimodais recentes. Na primeira fase, as telas passam por pré-processamento com equalização de histograma e filtros Gaussianos, e os operadores de Prewitt e Scharr são aplicados para estimar gradientes horizontais e verticais, realçando transições bruscas de intensidade. Em seguida, aplicam-se operações morfológicas, uma estrutura de dados do tipo união-e-busca e heurísticas geométricas para converter os mapas de bordas em caixas delimitadoras bem definidas, que agrupam pixels conectados em candidatos a componentes de interface. Nas fases posteriores, o modelo open source Qwen2.5-VL-7B, é utilizado para analisar cada grupo considerando o contexto visual completo da tela, filtrando ruídos, sugerindo novas combinações entre subconjuntos relacionados e atribuindo rótulos semânticos aos elementos identificados. Um pós-processamento heurístico remove sobreposições redundantes e corrige inconsistências, consolidando uma representação final mais próxima da forma como um usuário enxerga a interface. Os resultados experimentais indicam que a integração entre detecção de bordas baseada em operadores clássicos e raciocínio multimodal melhora a cobertura dos componentes e a acurácia das classes atribuídas, ao mesmo tempo em que produz saídas estruturadas e fáceis de inspecionar para uso em aplicações de análise ou automação de interfaces. O trabalho contribui com uma arquitetura modular de quatro fases para detecção e classificação de componentes de UI, integrando visão computacional e VLMs em zero-shot, validada em telas reais e com foco em interpretabilidade e estruturação semelhante a um DOM. pt_BR
dc.language.iso por pt_BR
dc.publisher Araranguá, SC. pt_BR
dc.rights Open Access. en
dc.subject visão computacional pt_BR
dc.subject detecção de objetos pt_BR
dc.subject interfaces gráficas pt_BR
dc.subject modelos multimodais pt_BR
dc.title Visão Computacional Clássica e LLMs para Detecção, Agrupamento e Classificação de Componentes Visuais pt_BR
dc.type TCCgrad pt_BR


Files in this item

Files Size Format View
TCC_UFSC__Gustavo___2025__assinado (1).pdf 5.711Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record

Search DSpace


Browse

My Account

Statistics

Compartilhar