Reconhecimento de gestos em vídeos utilizando modelos ocultos de Markov e redes neurais convolucionais aplicado a libras

DSpace Repository

A- A A+

Reconhecimento de gestos em vídeos utilizando modelos ocultos de Markov e redes neurais convolucionais aplicado a libras

Show full item record

Title: Reconhecimento de gestos em vídeos utilizando modelos ocultos de Markov e redes neurais convolucionais aplicado a libras
Author: Breda, Vinícius Morais
Abstract: A comunicação através de gestos é algo natural para os seres humanos, e por isso é muito importante que sistemas computacionais consigam reconhecer esses gestos, permitindo uma interação natural entre homem e máquina, seja para fins de acessibilidade, segurança, entretenimento, etc. Somando a importância dos gestos aos avanços tecnológicos, o interesse no reconhecimento de gestos utilizando visão computacional tem crescido cada vez mais, pois já se mostrou útil em diversas aplicações. Uma ferramenta que já conquistou o seu espaço no reconhecimento da fala são os modelos ocultos de Markov (Hidden Markov Models - HMMs), que também têm se mostrado úteis no reconhecimento de gestos. Outra ferramenta muito poderosa para o reconhecimento de imagens são as redes neurais convolucionais (convolutional neural networks - CNNs), que vêm sendo muito utilizadas nos últimos anos devido as modernas placas de processamento gráfico. Este trabalho propõe um sistema para reconhecimento de uma sequência de gestos dinâmicos em vídeo utilizando a combinação das duas ferramentas. São utilizados gestos da LIBRAS (Língua Brasileira de Sinais), que são modelados por HMMs, enquanto que uma CNN modela as formas da mão. As saídas da CNN são utilizadas como descritores para os HMMs em conjunto com descritores convencionais como a posição e inclinação das mãos. Em comparação com o uso exclusivo de descritores convencionais, o uso da CNN proporciona um aumento expressivo da acurácia da classificação no conjunto de teste.Abstract : Communication through gestures is natural for humans, and so it's very important that computer systems can recognize these gestures, allowing a natural interaction between humans and machine, whether for accessibility, security, entertainment, and so on. The importance of gestures added to the technological advances has led to a growing in the interest in gesture recognition using computer vision, since it has proved usefull in several applications. One tool that has already gained space in speech recognition is the Hidden Markov Models (HMMs), which have also proved useful in gesture recognition. Another very powerful tool for image recognition is the convolutional neural networks (CNNs), which have been widely used in the last years due to modern graphics processing boards. This work proposes a system for recognition of a sequence of dynamic gestures in videos using the combination of the two tools. LIBRAS's gestures (Brazilian Sign Language) are used, which are modeled by HMMs, while a CNN models the hand shapes. CNN's outputs are used as descriptors for the HMMs in conjunction with conventional descriptors such as the position and tilt of the hands. Compared with the exclusive use of conventional descriptors, the use of CNN has showed a significant increase in the accuracy of the classification in the test set.
Description: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2018.
URI: https://repositorio.ufsc.br/handle/123456789/205486
Date: 2018


Files in this item

Files Size Format View
PEEL1838-D.pdf 6.362Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Browse

My Account

Statistics

Compartilhar