La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Speaker Recognition by Combining MFCC and Phase Information in Noisy Conditions Reconnaissance du locuteur en combinant les informations MFCC et de phase dans des conditions bruyantes

Longbiao WANG, Kazue MINAMI, Kazumasa YAMAMOTO, Seiichi NAKAGAWA

  • Vues en texte intégral

    0

  • Citer

Résumé:

Dans cet article, nous étudions l'efficacité de la phase pour la reconnaissance du locuteur dans des conditions bruyantes et combinons les informations de phase avec des coefficients cepstraux à fréquence Mel (MFCC). À ce jour, presque toutes les méthodes de reconnaissance du locuteur sont basées sur les MFCC, même dans des conditions bruyantes. Pour les MFCC qui capturent principalement les informations sur les voies vocales, seule l'ampleur de la transformée de Fourier des trames vocales dans le domaine temporel est utilisée et les informations de phase ont été ignorées. Un complément élevé des informations de phase et des MFCC est attendu car les informations de phase comprennent de riches informations de source vocale. De plus, certaines recherches ont rapporté que la fonctionnalité basée sur la phase était robuste au bruit. Dans notre étude précédente, une méthode d'extraction d'informations de phase qui normalise la variation de changement de phase en fonction de la position de découpage de la parole d'entrée a été proposée, et les performances de la combinaison des informations de phase et des MFCC étaient remarquablement meilleures que celles des MFCC. Dans cet article, nous évaluons la robustesse des informations de phase proposées pour l'identification du locuteur dans des conditions bruyantes. La soustraction spectrale, une méthode de saut d'images avec des modèles de faible énergie/signal sur bruit (SN) et d'entraînement de la parole bruyante sont utilisées pour analyser l'effet des informations de phase et des MFCC dans des conditions bruyantes. La base de données NTT et la base de données JNAS (Japanese Newspaper Article Sentences) ajoutées au bruit stationnaire/non stationnaire ont été utilisées pour évaluer notre méthode proposée. Les MFCC ont surpassé les informations de phase pour une parole claire. D’un autre côté, la dégradation des informations de phase était nettement inférieure à celle des MFCC pour la parole bruyante. Le résultat individuel des informations de phase était encore meilleur que celui des MFCC dans de nombreux cas grâce à des modèles d'apprentissage de la parole clairs. En supprimant les trames peu fiables (trames ayant une faible énergie/SN), les performances d'identification du locuteur ont été considérablement améliorées. En intégrant les informations de phase avec les MFCC, le taux de réduction des erreurs d'identification du locuteur était d'environ 30 à 60 % par rapport à la méthode standard basée sur le MFCC.

Publication
IEICE TRANSACTIONS on Information Vol.E93-D No.9 pp.2397-2406
Date de publication
2010/09/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E93.D.2397
Type de manuscrit
Special Section PAPER (Special Section on Processing Natural Speech Variability for Improved Verbal Human-Computer Interaction)
Catégories
Reconnaissance des orateurs

Auteurs

Mots-clés

Table des matières