Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim

Rosa, Rodrigo Kobashikawa

Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim

DSpace Repository

A- A A+

Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim

Show simple item record

dc.contributor	Universidade Federal de Santa Catarina	pt_BR
dc.contributor.advisor	Silva, Danilo
dc.contributor.author	Rosa, Rodrigo Kobashikawa
dc.date.accessioned	2021-09-28T12:46:22Z
dc.date.available	2021-09-28T12:46:22Z
dc.date.issued	2021-08-05
dc.identifier.uri	https://repositorio.ufsc.br/handle/123456789/228258
dc.description	TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Eletrônica.	pt_BR
dc.description.abstract	A síntese de fala é uma área de pesquisa antiga, motivada pelo desejo humano de fazer as máquinas falarem e interagirem como humanos. Durante muito tempo, os resultados obtidos estavam muito longe da fala humana natural devido à complexidade do aparelho fonador humano. Porém, com o advento do aprendizado profundo, novas arquiteturas de redes neurais estão aparecendo e os modelos do estado da arte estão conseguindo sintetizar falas tão naturais quanto as de humanos reais, sendo quase imperceptível a diferença. Neste trabalho será apresentado o treinamento de um modelo do estado da arte com redes neurais, o Tacotron-2. Será utilizado um conjunto de dados de fala de código aberto do projeto Common Voice em português brasileiro. Foram avaliados os resultados do treinamento do modelo do zero e da aplicação de transfer learning a partir de um modelo pré-treinado em inglês. Os resultados mostraram que é possível treinar o modelo com recursos de dados limitados, a partir da avaliação da inteligibilidade dos modelos e da qualidade do áudio sintetizado.	pt_BR
dc.description.abstract	Speech synthesis is an old research field, motivated by the human desire of making machines talk and interact as humans. For a long time, the obtained results were very far from natural human speech due to the complexity of the human speech organs. However, with the advent of deep learning, new neural networks architectures have been appearing and the state of the art models are capable of synthesizing voices as natural as of real humans, with the difference being almost imperceptible. In this work it will be presented the training of a state-of-the-art neural network model, Tacotron-2. It will also use an open-source brazilian portuguese voice dataset from the Common Voice project. Results from training the model from scratch and by applying transfer learning of a pre-trained english model were evaluated. The results show that it is possible to train the model with limited data resources, from the evaluation of the models intelligibility and synthesized audio quality.	pt_BR
dc.format.extent	57 f.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Florianópolis, SC	pt_BR
dc.rights	Open Access
dc.subject	Síntese de fala	pt_BR
dc.subject	Redes neurais	pt_BR
dc.subject	Tacotron 2	pt_BR
dc.subject	Griffin-Lim	pt_BR
dc.subject	Processamento de fala	pt_BR
dc.title	Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim	pt_BR
dc.type	TCCgrad	pt_BR

Files in this item

Files	Size	Format	View	Description
TCC.pdf	2.259Mb	PDF	View/Open	TCC

Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim

DSpace Repository

Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim

Files in this item

This item appears in the following Collection(s)

Search DSpace

Browse

All of DSpace

This Collection

My Account

Statistics

Compartilhar