La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Simultaneous Adaptation of Acoustic and Language Models for Emotional Speech Recognition Using Tweet Data Adaptation simultanée de modèles acoustiques et linguistiques pour la reconnaissance vocale émotionnelle à l'aide de données de tweet

Tetsuo KOSAKA, Kazuya SAEKI, Yoshitaka AIZAWA, Masaharu KATO, Takashi NOSE

  • Vues en texte intégral

    0

  • Citer

Résumé:

La reconnaissance vocale émotionnelle est généralement considérée comme plus difficile que la reconnaissance vocale non émotionnelle. Les caractéristiques acoustiques de la parole émotionnelle diffèrent de celles de la parole non émotionnelle. De plus, les caractéristiques acoustiques varient considérablement en fonction du type et de l’intensité des émotions. Concernant les caractéristiques linguistiques, des expressions émotionnelles et familières sont également observées dans leurs énoncés. Pour résoudre ces problèmes, nous visons à améliorer les performances de reconnaissance en adaptant des modèles acoustiques et linguistiques à la parole émotionnelle. Nous avons utilisé le discours émotionnel basé sur Twitter japonais (JTES) comme corpus de discours émotionnel. Ce corpus était constitué de tweets et une étiquette émotionnelle était attribuée à chaque énoncé. L'adaptation du corpus est possible à partir des énoncés contenus dans ce corpus. Cependant, concernant le modèle linguistique, la quantité de données d’adaptation est insuffisante. Pour résoudre ce problème, nous proposons une adaptation du modèle linguistique en utilisant des données de tweet en ligne téléchargées sur Internet. Les phrases utilisées pour l’adaptation ont été extraites des données du tweet selon certaines règles. Nous avons extrait les données de 25.86 millions de mots et les avons utilisées à des fins d'adaptation. Dans les expériences de reconnaissance, le taux d'erreur de base sur les mots était de 36.11 %, alors que celui avec l'adaptation du modèle acoustique et linguistique était de 17.77 %. Les résultats ont démontré l'efficacité de la méthode proposée.

Publication
IEICE TRANSACTIONS on Information Vol.E107-D No.3 pp.363-373
Date de publication
2024/03/01
Publicisé
2023/12/05
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2023HCP0010
Type de manuscrit
Special Section PAPER (Special Section on Human Communication V)
Catégories

Auteurs

Tetsuo KOSAKA
  Yamagata University
Kazuya SAEKI
  Yamagata University
Yoshitaka AIZAWA
  Yamagata University
Masaharu KATO
  Yamagata University
Takashi NOSE
  Tohoku University

Mots-clés

Table des matières