La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Distant-Talking Speech Recognition Based on Spectral Subtraction by Multi-Channel LMS Algorithm Reconnaissance vocale à distance basée sur la soustraction spectrale par un algorithme LMS multicanal

Longbiao WANG, Norihide KITAOKA, Seiichi NAKAGAWA

  • Vues en texte intégral

    0

  • Citer

Résumé:

Nous proposons une méthode de déréverbération aveugle basée sur la soustraction spectrale utilisant un algorithme de moindres carrés moyens multicanaux (MCLMS) pour la reconnaissance vocale à distance. Dans un environnement de conversation distante, la réponse impulsionnelle du canal est plus longue que la fenêtre d'analyse spectrale à court terme. En traitant la réverbération tardive comme un bruit additif, une technique de réduction du bruit basée sur la soustraction spectrale a été proposée pour estimer le spectre de puissance de la parole claire en utilisant les spectres de puissance de la parole déformée et les réponses impulsionnelles inconnues. Pour estimer les spectres de puissance des réponses impulsionnelles, un algorithme MCLMS sans contrainte à pas variable (VSS-UMCLMS) permettant d'identifier les réponses impulsionnelles dans un domaine temporel est étendu à un domaine fréquentiel. Pour réduire l'effet de l'erreur d'estimation de la réponse impulsionnelle du canal, nous normalisons la réverbération précoce par normalisation moyenne cepstrale (CMN) au lieu de soustraction spectrale en utilisant la réponse impulsionnelle estimée. De plus, la méthode que nous proposons est combinée avec la formation de faisceaux conventionnelle à retard et à somme. Nous avons mené des expériences de reconnaissance sur un signal vocal déformé simulé par des réponses impulsionnelles convolutives multicanaux avec une parole claire. La méthode proposée a atteint un taux de réduction d’erreur relative de 22.4 % par rapport au CMN conventionnel. En combinant la méthode proposée avec la formation de faisceaux, un taux de réduction d'erreur relative de 24.5 % par rapport au CMN conventionnel avec formation de faisceaux a été obtenu en utilisant uniquement un mot isolé (d'une durée d'environ 0.6 s) pour estimer le spectre de la réponse impulsionnelle.

Publication
IEICE TRANSACTIONS on Information Vol.E94-D No.3 pp.659-667
Date de publication
2011/03/01
Publicisé
ISSN en ligne
1745-1361
DOI
10.1587/transinf.E94.D.659
Type de manuscrit
PAPER
Catégories
Parole et audition

Auteurs

Mots-clés

Table des matières