La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

A Rapid Model Adaptation Technique for Emotional Speech Recognition with Style Estimation Based on Multiple-Regression HMM Une technique d'adaptation rapide de modèle pour la reconnaissance vocale émotionnelle avec une estimation de style basée sur un HMM à régression multiple

Yusuke IJIMA, Takashi NOSE, Makoto TACHIBANA, Takao KOBAYASHI

  • Vues en texte intégral

    0

  • Citer

Résumé:

Dans cet article, nous proposons une technique d'adaptation rapide de modèles pour la reconnaissance émotionnelle de la parole qui nous permet d'extraire des informations paralinguistiques ainsi que des informations linguistiques contenues dans les signaux vocaux. Cette technique est basée sur l'estimation et l'adaptation du style à l'aide d'un HMM à régression multiple (MRHMM). Dans le MRHMM, les paramètres moyens de la fonction de densité de probabilité de sortie sont contrôlés par un vecteur de paramètres de faible dimension, appelé vecteur de style, qui correspond à un ensemble de variables explicatives de la régression multiple. Le processus de reconnaissance comprend deux étapes. Dans la première étape, le vecteur de style qui représente la catégorie d’expression émotionnelle et l’intensité de son expressivité pour le discours d’entrée est estimé phrase par phrase. Ensuite, les modèles acoustiques sont adaptés à l'aide du vecteur de style estimé, puis une reconnaissance vocale standard basée sur HMM est effectuée dans un deuxième temps. Nous évaluons les performances de la technique proposée dans la reconnaissance de discours émotionnels simulés prononcés à la fois par des narrateurs professionnels et des locuteurs non professionnels.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.1 pp.107-115
Date de publication
2010/01/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.107
Type de manuscrit
PAPER
Catégories
Parole et audition

Auteurs

Mots-clés

Table des matières