Abstract:
|
O desenvolvimento de métodos para análise de estresse na voz é relevante para diversas áreas, e envolve conceitos da psicologia, computação e análise comportamental. Ao decorrer do tempo, diferentes sistemas de classificação foram projetados. Desses, os mais antigos contam com a captura de características como respiração e pressão sanguínea, seguida da análise de um operador, responsável por interpretar os dados e sintetizar o resultado. Entretanto, nos últimos anos, fez-se relevante a análise não intrusiva de características extraídas da voz, assim como o uso de classificadores para resultados automáticos.
A fim de se obter melhores apurações, como eliminar a necessidade de intervenção humana no processo, considera-se o uso de rede neurais, as quais a partir de treinamento são capazes de detectar padrões e tomar decisões.
Esse projeto tem o objetivo de avaliar o uso de LSTMs na tarefa de detecção de estresse na voz, através da análise de diferentes bases de dados e características extraídas da voz. Para isso, foram utilizadas variações de configurações de redes neurais LSTM e o software OpenSMILE para extração. Com base nesses procedimentos, foi possível a análise de fatores importantes, como a eficácia de diferentes características, os processos de treinamento para diferentes datasets e as consequências da natureza e quantidade de dados utilizados. A partir dos resultados, percebeu-se que características como as potências logarítmicas das bandas de frequência de Mel e os MFCCs são relevantes para a detecção de estresse, e ficou evidenciada a importância de aspectos como quantidade e variabilidade nos dados do processo de treinamento. |