La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

HMM-Based Voice Conversion Using Quantized F0 Context Conversion vocale basée sur HMM à l'aide d'un contexte F0 quantifié

Takashi NOSE, Yuhei OTA, Takao KOBAYASHI

  • Vues en texte intégral

    0

  • Citer

Résumé:

Nous proposons une technique de conversion vocale basée sur des segments utilisant la synthèse vocale basée sur un modèle de Markov caché (HMM) avec des données d'entraînement non parallèles. Dans la technique proposée, les informations phonémiques avec des durées et un contour F0 quantifié sont extraites de la parole d'entrée d'un locuteur source et sont transmises à une partie de synthèse. Dans la partie synthèse, les symboles F0 quantifiés sont utilisés comme contexte prosodique. Une séquence d'étiquettes phonétiquement et prosodiquement dépendante du contexte est générée à partir du phonème transmis et des symboles F0. Ensuite, la parole convertie est générée à partir de la séquence d'étiquettes avec des durées à l'aide des HMM dépendants du contexte pré-entraînés du locuteur cible. Dans la formation du modèle, les modèles des locuteurs source et cible peuvent être formés séparément, il n'est donc pas nécessaire de préparer des données vocales parallèles des locuteurs source et cible. Des résultats expérimentaux objectifs et subjectifs montrent que la conversion vocale basée sur des segments avec des contextes phonétiques et prosodiques fonctionne efficacement même si les données vocales parallèles ne sont pas disponibles.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.9 pp.2483-2490
Date de publication
2010/09/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.2483
Type de manuscrit
Special Section PAPER (Special Section on Processing Natural Speech Variability for Improved Verbal Human-Computer Interaction)
Catégories
Conversion vocale

Auteurs

Mots-clés

Table des matières