La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Speaker-Independent Audio-Visual Speech Separation Based on Transformer in Multi-Talker Environments Séparation de la parole audiovisuelle indépendante du locuteur basée sur un transformateur dans des environnements multi-locuteurs

Jing WANG, Yiyu LUO, Weiming YI, Xiang XIE

  • Vues en texte intégral

    0

  • Citer

Résumé:

La séparation de la parole consiste à extraire la parole cible tout en supprimant les composants d'interférence de fond. Dans des applications telles que les visiophones, des informations visuelles sur le locuteur cible sont disponibles, qui peuvent être exploitées pour la séparation vocale de plusieurs locuteurs. La plupart des méthodes de séparation multi-locuteurs précédentes sont principalement basées sur des réseaux de neurones convolutifs ou récurrents. Récemment, les modèles Seq2Seq basés sur Transformer ont atteint des performances de pointe dans diverses tâches, telles que la traduction automatique neuronale (NMT), la reconnaissance automatique de la parole (ASR), etc. Transformer a montré un avantage dans la modélisation temporelle audiovisuelle. contexte par des blocs d’attention multi-têtes en attribuant explicitement des poids d’attention. De plus, Transformer n'a pas de sous-réseaux récurrents, prenant ainsi en charge la parallélisation du calcul de séquence. Dans cet article, nous proposons une nouvelle méthode de séparation de la parole audiovisuelle indépendante du locuteur, basée sur Transformer, qui peut être appliquée de manière flexible à un nombre et à une identité inconnus des locuteurs. Le modèle reçoit à la fois des flux audiovisuels, y compris des spectrogrammes bruyants et des intégrations de lèvres de haut-parleur, et prédit un masque temps-fréquence complexe pour le locuteur cible correspondant. Le modèle est composé de trois composants principaux : un encodeur audio, un encodeur visuel et un générateur de masque basé sur un transformateur. Deux structures différentes d'encodeurs sont étudiées et comparées, notamment basées sur ResNet et basées sur Transformer. Les performances de la méthode proposée sont évaluées en termes de mesures de séparation des sources et de qualité de la parole. Les résultats expérimentaux sur l'ensemble de données de référence GRID montrent l'efficacité de la méthode sur les tâches de séparation indépendantes du locuteur dans des environnements multi-locuteurs. Le modèle se généralise bien aux identités invisibles des locuteurs et des types de bruit. Bien que formé uniquement sur des mélanges à 2 haut-parleurs, le modèle atteint des performances raisonnables lorsqu'il est testé sur des mélanges à 2 et 3 haut-parleurs. En outre, le modèle présente toujours un avantage par rapport aux travaux antérieurs de séparation de la parole audiovisuelle.

Publication
IEICE TRANSACTIONS on Information Vol.E105-D No.4 pp.766-777
Date de publication
2022/04/01
Publicisé
2022/01/11
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2021EDP7020
Type de manuscrit
PAPER
Catégories
Parole et audition

Auteurs

Jing WANG
  Beijing Institute of Technology
Yiyu LUO
  Beijing Institute of Technology
Weiming YI
  Beijing Insitute of Technology
Xiang XIE
  Beijing Institute of Technology

Mots-clés

Table des matières