La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Effectiveness of Word String Language Models on Noisy Broadcast News Speech Recognition Efficacité des modèles de langage de chaînes de mots sur la reconnaissance vocale des informations diffusées avec bruit

Kazuyuki TAKAGI, Rei OGURO, Kazuhiko OZEKI

  • Vues en texte intégral

    0

  • Citer

Résumé:

Des expériences ont été menées pour examiner une approche du côté de la modélisation du langage visant à améliorer les performances de reconnaissance vocale bruyante. En adoptant des chaînes de mots appropriées comme nouvelles unités de traitement, les performances de reconnaissance vocale ont été améliorées par des effets acoustiques ainsi que par la réduction de la perplexité des ensembles de tests. Trois types de modèles de langage de chaînes de mots ont été évalués, dont les entrées lexicales supplémentaires ont été sélectionnées sur la base de combinaisons d'informations sur une partie du discours, de la longueur des mots, de la fréquence d'occurrence et du rapport de vraisemblance des hypothèses concernant la fréquence des bigrammes. Les trois modèles de chaînes de mots ont réduit les erreurs de reconnaissance vocale des informations diffusées et ont également réduit la perplexité de l'ensemble de test. Le modèle de chaîne de mots basé sur le rapport de vraisemblance logarithmique a présenté la meilleure amélioration pour la reconnaissance vocale bruyante, grâce à laquelle les erreurs de suppression ont été réduites de 26 %, les erreurs de substitution de 9.3 % et les erreurs d'insertion de 13 %, dans les expériences utilisant le modèle dépendant du locuteur. triphone adapté au bruit. L'efficacité des modèles de chaînes de mots sur la réduction des erreurs était plus importante pour la parole bruyante que pour la parole propre en studio.

Publication
IEICE TRANSACTIONS on Information Vol.E85-D No.7 pp.1130-1137
Date de publication
2002/07/01
Publicisé
ISSN en ligne
DOI
Type de manuscrit
PAPER
Catégories
Parole et audition

Auteurs

Mots-clés

Table des matières