La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Recognition of Connected Digit Speech in Japanese Collected over the Telephone Network Reconnaissance de la parole à chiffres connectés en japonais collectée sur le réseau téléphonique

Hisashi KAWAI, Tohru SHIMIZU, Norio HIGUCHI

  • Vues en texte intégral

    0

  • Citer

Résumé:

Cet article décrit les résultats expérimentaux sur la reconnaissance vocale de mots entiers basée sur HMM de chiffres connectés en japonais avec un accent particulier sur la taille des données d'apprentissage et le problème des « moutons et chèvres ». Les données de formation comprennent 757000 2000 chiffres prononcés par 399000 1700 locuteurs, tandis que les données de test comprennent 1.64 XNUMX chiffres prononcés par XNUMX XNUMX locuteurs. Le meilleur taux d'erreur de mot pour les chaînes de longueur inconnue était de XNUMX %, obtenu à l'aide de HMM dépendants du contexte. Le taux d'erreur sur les mots a été mesuré pour divers sous-ensembles de données de formation, réduit à la fois en termes de nombre de locuteurs (s) et le nombre d'énoncés par locuteur (u). En conséquence, une formule empirique de s[{m.(0.62s0.75, u)}0.74 + {max(0, u- 0.62s0.75)}0.27🇧🇷 D(Ew) a été développé, où Ew et à la D(Ew) désignent respectivement le taux d'erreur sur les mots et la taille effective des données. Des analyses ont été menées sur plusieurs aspects des locuteurs peu performants expliquant la majeure partie des erreurs de reconnaissance. Des tentatives ont également été faites pour améliorer leurs performances en matière de reconnaissance. Il a été constaté que 33 % des enceintes à faible performance sont améliorées au niveau normal grâce au regroupement d’enceintes centré autour de chaque enceinte à faible performance.

Publication
IEICE TRANSACTIONS on Information Vol.E84-D No.3 pp.374-383
Date de publication
2001/03/01
Publicisé
ISSN en ligne
DOI
Type de manuscrit
PAPER
Catégories
Parole et audition

Auteurs

Mots-clés

Table des matières