Extensão artificial de largura de banda para sinais de fala em telefonia usando classificação fonética

Repositório institucional da UFSC

A- A A+

Extensão artificial de largura de banda para sinais de fala em telefonia usando classificação fonética

Mostrar registro completo

Título: Extensão artificial de largura de banda para sinais de fala em telefonia usando classificação fonética
Autor: Silva, Ênio dos Santos
Resumo: Este trabalho de pesquisa apresenta uma nova estratégia para implementar sistemas de extensão artificial de largura de banda (artificial bandwidth extension- ABWE) para sinais de fala aplicados à rede pública (convencional) de telefonia (public switched telephone network - PSTN). Especificamente, aqui é proposta uma estratégia baseada em classificação fonética visando representar satisfatoriamente segmentos de fala com energia concentrada em altas frequências, superando outros resultados apresentados na literatura. Para tal,técnicas de seleção de atributos aplicadas a sinais de fala de banda limitada são investigadas, aprimorando a classificação em grupos fonéticos abrangentes (broad group phonetic - BGP) com ênfase na discriminação de fonemas pertencentes ao grupo fonético fricativo. Adicionalmente, neste trabalho é discutida a integração do sistema de ABWE proposto em sistemas de reconhecimento automático de fala (automatic speech recognition - ASR) para o português brasileiro aplicados à PSTN. Particularmente, visando o aprimoramento de ASR em PSTN, as etapas de extração de atributos do sinal da fala e a etapa de construção do modelo acústico são desenvolvidas baseadas em sinais sintéticos de banda larga (wideband - WB) estimados a partir do realce de sinais de banda estreita (narrowband - NB) usando ABWE. Os resultados obtidos apresentam realce na qualidade subjetiva dos sinais de fala reconstruídos e ganho no desempenho do ASR, confirmando a eficácia das estratégias propostas neste trabalho de pesquisa.<br>Abstract: This research work presents a new strategy for implementing artificial bandwidth extension (ABWE) systems for speech signals applied to the public switched telephone network (PSTN). Specifically, a strategy based on phonetic classification is proposed here aiming to represent speech segments with concentrated energy at high frequencies, out performing other approaches from the open literature. In this context, feature selection techniques applied to limited band width speech signals are investigated, improving thebroad group phonetic (BGP) classification with an emphasis on discriminationof phonemes belonging to the fricative phonetic group. In addition, the integration of the proposed ABWE approach in automatic speech recognition(ASR) systems for Brazilian Portuguese applied to the PSTN is also discussed. Particularly, in order to improve PSTN ASR systems, synthetically estimated wide band (WB) signals, from the narrow band (NB) enhancement by ABWE, are used to obtain more discriminating attributes of speech signals as well as for achieving better performance of acoustic models (AM). Theobtained results show an enhancement in the quality of reconstructed speech signals with very good performance in ASR systems, confirming the effectivenessof the proposed strategies in this research work.
Descrição: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2016.
URI: https://repositorio.ufsc.br/xmlui/handle/123456789/167693
Data: 2016


Arquivos deste item

Arquivos Tamanho Formato Visualização
340510.pdf 2.226Mb PDF Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro completo

Buscar DSpace


Navegar

Minha conta

Estatística

Compartilhar