Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim
Show simple item record
dc.contributor |
Universidade Federal de Santa Catarina |
pt_BR |
dc.contributor.advisor |
Silva, Danilo |
|
dc.contributor.author |
Rosa, Rodrigo Kobashikawa |
|
dc.date.accessioned |
2021-09-28T12:46:22Z |
|
dc.date.available |
2021-09-28T12:46:22Z |
|
dc.date.issued |
2021-08-05 |
|
dc.identifier.uri |
https://repositorio.ufsc.br/handle/123456789/228258 |
|
dc.description |
TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia Eletrônica. |
pt_BR |
dc.description.abstract |
A síntese de fala é uma área de pesquisa antiga, motivada pelo desejo humano de fazer as
máquinas falarem e interagirem como humanos. Durante muito tempo, os resultados obtidos
estavam muito longe da fala humana natural devido à complexidade do aparelho fonador
humano. Porém, com o advento do aprendizado profundo, novas arquiteturas de redes neurais
estão aparecendo e os modelos do estado da arte estão conseguindo sintetizar falas tão
naturais quanto as de humanos reais, sendo quase imperceptível a diferença. Neste trabalho
será apresentado o treinamento de um modelo do estado da arte com redes neurais, o
Tacotron-2. Será utilizado um conjunto de dados de fala de código aberto do projeto Common
Voice em português brasileiro. Foram avaliados os resultados do treinamento do modelo do
zero e da aplicação de transfer learning a partir de um modelo pré-treinado em inglês. Os
resultados mostraram que é possível treinar o modelo com recursos de dados limitados, a
partir da avaliação da inteligibilidade dos modelos e da qualidade do áudio sintetizado. |
pt_BR |
dc.description.abstract |
Speech synthesis is an old research field, motivated by the human desire of making machines
talk and interact as humans. For a long time, the obtained results were very far from natural
human speech due to the complexity of the human speech organs. However, with the advent
of deep learning, new neural networks architectures have been appearing and the state of the
art models are capable of synthesizing voices as natural as of real humans, with the difference
being almost imperceptible. In this work it will be presented the training of a state-of-the-art
neural network model, Tacotron-2. It will also use an open-source brazilian portuguese voice
dataset from the Common Voice project. Results from training the model from scratch and by
applying transfer learning of a pre-trained english model were evaluated. The results show
that it is possible to train the model with limited data resources, from the evaluation of the
models intelligibility and synthesized audio quality. |
pt_BR |
dc.format.extent |
57 f. |
pt_BR |
dc.language.iso |
por |
pt_BR |
dc.publisher |
Florianópolis, SC |
pt_BR |
dc.rights |
Open Access |
|
dc.subject |
Síntese de fala |
pt_BR |
dc.subject |
Redes neurais |
pt_BR |
dc.subject |
Tacotron 2 |
pt_BR |
dc.subject |
Griffin-Lim |
pt_BR |
dc.subject |
Processamento de fala |
pt_BR |
dc.title |
Conversão texto-fala para o português brasileiro utilizando o modelo Tacotron-2 e o vocoder Griffin-Lim |
pt_BR |
dc.type |
TCCgrad |
pt_BR |
Files in this item
This item appears in the following Collection(s)
Show simple item record
Search DSpace
Browse
-
All of DSpace
-
This Collection
My Account
Statistics
Compartilhar