La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Scalable Community Identification with Manifold Learning on Speaker I-Vector Space Identification de communauté évolutive avec apprentissage multiple sur l'espace I-Vector du haut-parleur

Hongcui WANG, Shanshan LIU, Di JIN, Lantian LI, Jianwu DANG

  • Vues en texte intégral

    0

  • Citer

Résumé:

La reconnaissance des différents segments de parole appartenant à un même locuteur est une tâche importante d'analyse de la parole dans diverses applications. Des travaux récents ont montré qu'il existait une variété sous-jacente sur laquelle les énoncés du locuteur vivent dans l'espace des paramètres du modèle. Cependant, la plupart des méthodes de regroupement de locuteurs fonctionnent sur l'espace euclidien et ne parviennent donc souvent pas à découvrir la structure géométrique intrinsèque de l'espace de données et ne parviennent pas à utiliser ce type de fonctionnalités. Pour ce problème, nous envisageons de convertir la représentation i-vecteur du locuteur des énoncés dans l'espace euclidien en une structure de réseau construite sur la base du local (k) relation du plus proche voisin de ces signaux. Nous proposons ensuite un modèle efficace de détection de communauté sur le réseau de contenu du locuteur pour le clustering des signaux. Le nouveau modèle est basé sur les appartenances probabilistes à la communauté et est affiné avec l'idée suivante : si deux nœuds connectés ont une grande similarité, leurs répartitions d'appartenance à la communauté dans le modèle doivent être proches. Cet affinement améliore l'hypothèse d'invariance locale et respecte ainsi mieux la structure de la variété sous-jacente que les méthodes de détection de communauté existantes. Certaines expériences sont menées sur des graphiques construits à partir de deux bases de données vocales chinoises et d'une évaluation de reconnaissance du locuteur (SRE) du NIST 2008. Les résultats ont permis de mieux comprendre la structure des locuteurs présents dans les données et ont également confirmé l'efficacité de la nouvelle méthode proposée. Notre nouvelle méthode offre de meilleures performances par rapport aux autres algorithmes de clustering de pointe. Les mesures permettant de construire un graphique de contenu du locuteur sont également abordées.

Publication
IEICE TRANSACTIONS on Information Vol.E102-D No.10 pp.2004-2012
Date de publication
2019/10/01
Publicisé
2019/07/10
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2018EDP7356
Type de manuscrit
PAPER
Catégories
Intelligence artificielle, exploration de données

Auteurs

Hongcui WANG
  Tianjin University,Zhejiang University of Water Resouces and Electric Power
Shanshan LIU
  Tianjin University
Di JIN
  Tianjin University
Lantian LI
  Tsinghua University
Jianwu DANG
  Tianjin University,Japan Advanced Institute of Science and Technology

Mots-clés

Table des matières