La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Utterance Verification Using State-Level Log-Likelihood Ratio with Frame and State Selection Vérification des énoncés à l'aide du rapport de log-vraisemblance au niveau de l'état avec sélection de trame et d'état

Suk-Bong KWON, Hoirin KIM

  • Vues en texte intégral

    0

  • Citer

Résumé:

Cet article suggère un système de vérification de l'énoncé utilisant le rapport de log-vraisemblance au niveau de l'état avec sélection de trame et d'état. Nous utilisons des modèles de Markov cachés pour la reconnaissance vocale et la vérification de l'énoncé comme modèles acoustiques et modèles anti-téléphoniques. Les modèles de Markov cachés ont trois états et chaque état représente différentes caractéristiques d'un téléphone. Ainsi, nous proposons un algorithme pour calculer le rapport de vraisemblance au niveau de l'état et attribuer des poids aux états afin d'obtenir une mesure de confiance plus fiable des téléphones reconnus. De plus, nous proposons un algorithme de sélection de trame pour calculer la mesure de confiance sur les trames incluant la parole appropriée dans la parole d'entrée. En général, les informations de segmentation téléphonique obtenues à partir d'un système de reconnaissance vocale indépendant du locuteur ne sont pas précises car les modèles acoustiques basés sur les triphones sont difficiles à entraîner efficacement pour couvrir divers effets de prononciation et de coarticulation. Il est donc plus difficile de trouver les bons états correspondants lors de l’obtention d’informations sur la segmentation des états. Un algorithme de sélection d'état est suggéré pour trouver des états valides. La méthode proposée utilisant le rapport de log-vraisemblance au niveau de l'État avec sélection de base et d'état montre que la réduction relative du taux d'erreur égal est de 18.1 % par rapport au système de base utilisant de simples rapports de log-vraisemblance au niveau du téléphone.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.3 pp.647-650
Date de publication
2010/03/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.647
Type de manuscrit
LETTER
Catégories
Parole et audition

Auteurs

Mots-clés

Table des matières