La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Unsupervised Speaker Adaptation Using Speaker-Class Models for Lecture Speech Recognition Adaptation non supervisée du locuteur à l'aide de modèles de classe de locuteurs pour la reconnaissance vocale de cours magistraux

Tetsuo KOSAKA, Yuui TAKEDA, Takashi ITO, Masaharu KATO, Masaki KOHDA

  • Vues en texte intégral

    0

  • Citer

Résumé:

Dans cet article, nous proposons une nouvelle modélisation de classe de locuteurs et sa méthode d'adaptation pour le système LVCSR et évaluons la méthode sur le Corpus du japonais spontané (CSJ). Dans cette méthode, des locuteurs plus proches sont sélectionnés parmi les locuteurs d'entraînement et les modèles acoustiques sont entraînés en utilisant leurs énoncés pour chaque locuteur d'évaluation. L’un des problèmes majeurs du modèle de classe de locuteurs est de déterminer la gamme de sélection des locuteurs. Afin de résoudre le problème, plusieurs modèles présentant une variété de gammes de locuteurs sont préparés à l'avance pour chaque locuteur d'évaluation, et le modèle le plus approprié est sélectionné sur une base de vraisemblance lors de l'étape de reconnaissance. De plus, nous avons amélioré les performances de reconnaissance en utilisant une adaptation non supervisée du locuteur avec les modèles de classe locuteur. Dans les expériences de reconnaissance, une amélioration significative pourrait être obtenue en utilisant l'adaptation de locuteur proposée basée sur des modèles de classes de locuteurs par rapport à la méthode d'adaptation conventionnelle.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.9 pp.2363-2369
Date de publication
2010/09/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.2363
Type de manuscrit
Special Section PAPER (Special Section on Processing Natural Speech Variability for Improved Verbal Human-Computer Interaction)
Catégories
Adaptation

Auteurs

Mots-clés

Table des matières