La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Sound Event Detection Utilizing Graph Laplacian Regularization with Event Co-Occurrence Détection d'événements sonores utilisant la régularisation laplacienne graphique avec co-occurrence d'événements

Keisuke IMOTO, Seisuke KYOCHI

  • Vues en texte intégral

    0

  • Citer

Résumé:

Un nombre limité de types d'événements sonores se produisent dans une scène acoustique et certains événements sonores ont tendance à se produire simultanément dans la scène ; par exemple, les événements sonores « plats » et « tintement de verre » sont susceptibles de coexister dans la scène acoustique « cuisine ». Dans cet article, nous proposons une méthode de détection d'événements sonores utilisant la régularisation laplacienne graphique avec prise en compte de la cooccurrence d'événements sonores. Dans la méthode proposée, les occurrences d'événements sonores sont exprimées sous forme d'un graphe dont les nœuds indiquent les fréquences d'occurrence des événements et dont les bords indiquent les cooccurrences d'événements sonores. Cette représentation graphique est ensuite utilisée pour la formation de modèles de détection d'événements sonores, qui est optimisée sous une fonction objectif avec un terme de régularisation prenant en compte la structure graphique de l'occurrence et de la cooccurrence d'événements sonores. Des expériences d'évaluation utilisant les ensembles de données TUT Sound Events 2016 et 2017 et l'ensemble de données TUT Acoustic Scenes 2016 montrent que la méthode proposée améliore les performances de détection des événements sonores de 7.9 points de pourcentage par rapport à la méthode de détection conventionnelle basée sur CNN-BiGRU en termes de score F1 basé sur les segments. En particulier, les résultats expérimentaux indiquent que la méthode proposée permet de détecter des événements sonores concomitants avec plus de précision que la méthode conventionnelle.

Publication
IEICE TRANSACTIONS on Information Vol.E103-D No.9 pp.1971-1977
Date de publication
2020/09/01
Publicisé
2020/06/08
ISSN en ligne
1745-1361
DOI
10.1587/transinf.2019EDP7323
Type de manuscrit
PAPER
Catégories
Parole et audition

Auteurs

Keisuke IMOTO
  Ritsumeikan University
Seisuke KYOCHI
  University of Kitakyushu

Mots-clés

Table des matières