La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Weighted Gradient Pretrain for Low-Resource Speech Emotion Recognition Préentraînement à gradient pondéré pour la reconnaissance des émotions vocales à faibles ressources

Yue XIE, Ruiyu LIANG, Xiaoyan ZHAO, Zhenlin LIANG, Jing DU

  • Vues en texte intégral

    0

  • Citer

Résumé:

Pour atténuer le problème de la dépendance à la quantité de données d'échantillon d'entraînement dans la reconnaissance des émotions vocales, un algorithme de pré-entraînement à gradient pondéré pour la reconnaissance des émotions vocales à faibles ressources est proposé. Plusieurs corpus d'émotions publiques sont utilisés pour la pré-formation afin de générer des paramètres de couche cachée partagée (SHL) avec la capacité de généralisation. Les paramètres sont utilisés pour initialiser le réseau en aval de la tâche de reconnaissance pour l'ensemble de données à faibles ressources, améliorant ainsi les performances de reconnaissance sur les corpus d'émotions à faibles ressources. Cependant, les catégories d'émotions sont différentes selon les corpus publics et le nombre d'échantillons varie considérablement, ce qui augmentera la difficulté de la formation conjointe sur plusieurs ensembles de données émotionnelles. À cette fin, un algorithme de gradient pondéré (WG) est proposé pour permettre à la couche partagée d'apprendre la représentation généralisée de différents ensembles de données sans affecter la priorité de la reconnaissance des émotions sur chaque corpus. Les expériences montrent que la précision est améliorée en utilisant CASIA, IEMOCAP et eNTERFACE comme ensembles de données connus pour pré-entraîner les modèles d'émotion de GEMEP, et que les performances pourraient être encore améliorées en combinant WG avec une couche d'inversion de gradient.

Publication
IEICE TRANSACTIONS on Information Vol.E105-D No.7 pp.1352-1355
Date de publication
2022/07/01
Publicisé
2022/04/04
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2022EDL8014
Type de manuscrit
LETTER
Catégories
Parole et audition

Auteurs

Yue XIE
  Nanjing Institute of Technology
Ruiyu LIANG
  Nanjing Institute of Technology
Xiaoyan ZHAO
  Nanjing Institute of Technology
Zhenlin LIANG
  Southeast University
Jing DU
  Southeast University

Mots-clés

Table des matières