Abstract:
|
Após o surgimento dos telefones, e mais recentemente dos computadores, se tornou possível o armazenamento de áudios no formato digital. Os celulares modernos juntamente com a internet tornaram viável a gravação e transmissão destes áudios em larga escala. Surge então uma nova demanda de processamento e extração de informação dos mesmos. O reconhecimento de emoções através da voz é uma demanda recente, que só apareceu com a popularização de algoritmos de aprendizado de máquina, onde se destacam KNN, SVM, GMM e HMM. Neste trabalho foi proposto um sistema baseado em SVM, onde são extraídas características da voz (tais como pitch e energia) e um modelo é treinado de forma supervisionada, utilizando cada emoção a ser reconhecida como uma classe. O reconhecimento se dá, pela classe com maior verossimilhança obtida. Utilizando o banco de dados emocional de Berlin (em alemão) conseguimos obter uma taxa de reconhecimento de 86,79% e com o banco de dados criado em português, extraindo-se trechos de filmes e vídeos, foi obtida uma taxa de 70,83%. Os resultados obtidos foram bastante razoáveis, visto que alguns autores do estado da arte obtiveram resultados piores. |