La fonctionnalité de recherche est en construction.
La fonctionnalité de recherche est en construction.

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. ex. Some numerals are expressed as "XNUMX".
Copyrights notice

The original paper is in English. Non-English content has been machine-translated and may contain typographical errors or mistranslations. Copyrights notice

Open Access
Noise-Robust Scream Detection Using Wave-U-Net
Open Access
Détection de cris résistante au bruit à l'aide de Wave-U-Net

Noboru HAYASAKA, Riku KASAI, Takuya FUTAGAMI

  • Vues en texte intégral

    391

  • Citer
  • Free PDF (708.1KB)

Résumé:

Dans cet article, nous proposons une méthode de détection des cris robuste au bruit dans le but d'étendre le système de détection des cris, un système de sécurité basé sur le son. La méthode proposée utilise des cris améliorés à l’aide de Wave-U-Net, qui s’est avéré efficace comme méthode de réduction du bruit pour les cris bruyants. Cependant, les cris améliorés montraient des composantes de fréquence différentes des cris clairs et mettaient l'accent par erreur sur des composantes de fréquence similaires aux cris dans le bruit. Par conséquent, Wave-U-Net a été appliqué même dans le processus de formation de modèles de mélange gaussiens, qui sont des discriminateurs. Nous avons mené des expériences de détection en utilisant la méthode proposée dans divers environnements sonores et avons déterminé que le taux de fausses acceptations était réduit en moyenne de 2.1 % ou plus par rapport à la méthode conventionnelle.

Publication
IEICE TRANSACTIONS on Fundamentals Vol.E107-A No.4 pp.634-637
Date de publication
2024/04/01
Publicisé
2023/10/05
ISSN en ligne
1745-1337
DOI
10.1587/transfun.2023SSL0001
Type de manuscrit
Special Section LETTER (Special Section on Information and Communication Technologies for Safe and Secure Life)
Catégories

1. Introduction

Des caméras de sécurité ont été installées à divers endroits pour prévenir et dissuader les délits. Cependant, les emplacements d'installation sont limités en raison d'exigences de confidentialité ou de luminosité. Pour remédier à ces inconvénients, des systèmes de sécurité utilisant le son ont été proposés. Les systèmes de détection des cris peuvent détecter immédiatement des conditions anormales, ce qui les rend très efficaces pour prévenir et dissuader les crimes [1]-[6]. De plus, les cris enregistrés peuvent être utilisés comme preuve dans les procès et les enquêtes [7].

Dans cet article, nous définissons un cri comme un son émis par une femme pour exprimer sa peur. La raison en est que les femmes se protègent généralement moins que les hommes et sont plus susceptibles de crier. Le système de détection des cris a l’avantage d’être utilisable partout, mais il peut être affecté par le bruit et ne pas remplir pleinement son rôle. De plus, si les cris enregistrés sont dégradés par le bruit, ils perdent leur validité en tant que preuve. Par conséquent, afin de préserver la valeur probante, nous avons mené des expériences comparatives sur les méthodes de réduction du bruit pour les cris bruyants. Les résultats ont vérifié que Wave-U-Net réduit le plus le bruit par rapport aux autres méthodes, par exemple le Speech Enhancement Generative Adversarial Network [8]. Cependant, nous avons également constaté que Wave-U-Net met l'accent sur les composantes de bruit similaires aux cris, ce qui diminue sa précision [9].

Les systèmes de surveillance audio tels que la détection d’événements sonores ont été étudiés, mais peu d’études se sont spécialisées dans les systèmes de détection de cris. Les coefficients cepstraux à fréquence Mel (MFCC), l'entropie spectrale à bande limitée [2] et Combo-SAD, qui intègre des caractéristiques du domaine temporel et des caractéristiques du domaine fréquentiel [3], ont été proposés comme caractéristiques de la détection des cris. Le modèle mixte gaussien (GMM) et la machine à vecteurs de support (SVM) sont des classificateurs largement utilisés, et une méthode de réglage des paramètres SVM en fonction du rapport signal sur bruit (SNR) et du contexte des échantillons audio d'entrée a également été proposée [4 ]. De plus, plusieurs méthodes utilisant le deep learning ont également été proposées [5]-[6]. Dans cet article, nous étudions s'il est possible d'améliorer la précision de la détection des cris en utilisant des cris améliorés avec Wave-U-Net. Par conséquent, nous utilisons les MFCC et les GMM, qui sont largement utilisés dans la détection de cris conventionnelle, comme fonctionnalités et classificateurs. L’utilisation de l’apprentissage profond à la fois pour l’amélioration et la détection des cris augmente les coûts de calcul et n’est pas abordée dans cet article.

La section 2 explique Wave-U-Net et les cris améliorés. Le cadre de détection des cris à l'aide de Wave-U-Net est décrit dans la Sect. 3, et les résultats de l'évaluation sont présentés dans la section. 4. Enfin, les points clés sont résumés dans la Sect. 5.

2. Wave-U-Net pour l'amélioration des cris

2.1 Wave-U-Net [10]

L'architecture Wave-U-Net est une version unidimensionnelle du u-net général qui peut gérer directement les signaux du domaine temporel. Wave-U-Net est utilisé pour séparer la musique et le chant. Nous avons également constaté qu'il est très efficace pour séparer les cris et le bruit [9].

La figure 1 montre l'architecture de Wave-U-Net. Il contient \(L\) des blocs de sous-échantillonnage, constitués chacun d'une couche de convolution et de décimation unidimensionnelle, d'une couche de convolution inférieure et \(L\) des blocs de suréchantillonnage, chacun constitué d'une couche de convolution et d'interpolation unidimensionnelle. Les signaux d'entrée sont des cris bruyants et les signaux de sortie sont des cris et du bruit clairs.

Fig. 1  Architecture Wave-U-Net.

Les blocs de sous-échantillonnage extraient un certain nombre de fonctionnalités de niveau supérieur tout en réduisant la résolution temporelle. Ces caractéristiques sont concaténées avec des caractéristiques locales à haute résolution calculées à partir des blocs de suréchantillonnage de même niveau. Les résultats sont concaténés en fonctionnalités multi-échelles à des fins de prédiction. La couche de décimation dans chaque bloc de sous-échantillonnage fonctionne avec la moitié de la résolution temporelle du bloc précédent. La couche de convolution unidimensionnelle dans un bloc de sous-échantillonnage a \(F*l\) filtres de taille \(f_d\), Où \(l\) désigne l'ordre des blocs de sous-échantillonnage.

Chaque bloc de suréchantillonnage exécute un double suréchantillonnage dans le sens du temps, suivi d'une concaténation des caractéristiques des blocs de sous-échantillonnage à la même échelle, puis d'une convolution unidimensionnelle. L'interpolation bilinéaire est utilisée dans chaque couche d'interpolation. La couche de convolution unidimensionnelle dans un bloc de suréchantillonnage a \(F*l\) filtres de taille \(f_u\).

Chaque couche de convolution dans ces blocs est suivie d'une activation d'unité linéaire rectifiée avec fuite avec \(\alpha=0.3\), et tanh est utilisé dans la dernière couche de convolution du réseau.

2.2 Scream amélioré avec Wave-U-Net

La figure 2 montre les spectrogrammes d'un cri clair, d'un cri bruyant et d'un cri amélioré avec Wave-U-Net. Dans ces spectrogrammes, la section hurlante est comprise entre 0.25 s et 1.25 s. Wave-U-Net a réussi à éliminer en grande partie le bruit et à laisser les composants harmoniques. Cependant, dans la section sans cri (0 à 0.1, 1.3 s et 1.5, 2 à XNUMX, XNUMX s) de la figure XNUMX (c), la même composante de fréquence que celle du cri a été améliorée. De plus, les spectrogrammes du cri clair et du cri accentué sont différents dans la section hurlante. Par conséquent, si la sortie de Wave-U-Net est utilisée pour la détection des cris, une détection erronée peut fréquemment se produire dans la section sans cris.

Fig. 2  Spectrogrammes de différents cris.

3. Détection de cris robuste au bruit

3.1 Cadre de détection des cris utilisant Wave-U-Net

Le cadre de détection des cris proposé est illustré à la figure 3. Le point culminant de ce cadre est que Wave-U-Net est également appliqué dans le processus d'estimation des paramètres pour résoudre les problèmes décrits dans la section. 2.2. Lors de l'étape d'extraction de caractéristiques de la figure 3, les MFCC décrits dans la section suivante sont extraits.

Fig. 3  Framework de détection de cris utilisant Wave-U-Net.

Ici, nous décrivons le processus d'estimation des paramètres sur la figure 3 (a). \(\boldsymbol V_t^S\) et à la \(\boldsymbol V_t^N\) sont les MFCC du cri et du bruit, respectivement, et \(t\) est le numéro de trame. Dans l'étape d'estimation des paramètres, les MFCC sont modélisés à l'aide de GMM (\(\lambda^{\rm S}\) et à la \(\lambda^{\rm N}\)).

Dans le processus de détection illustré sur la figure 3 (b), \(\boldsymbol V_t^{\rm in}\) est dérivé du signal d'entrée et les log-vraisemblances pour les GMM respectifs sont calculées : (\(LL_t^{\rm S}\) et à la \(LL_t^{\rm N}\)).

\[\begin{eqnarray*} &&\!\!\!\!\! LL_t^{\rm S}=\log p(\boldsymbol{V_t^{\rm in}}|\lambda^{\rm S}) \tag{1} \\ &&\!\!\!\!\! LL_t^{\rm N}=\log p(\boldsymbol{V_t^{\rm in}}|\lambda^{\rm N}) \tag{2} \end{eqnarray*}\]

Quand la différence (\(LL_t^{\rm S}\) - \(LL_t^{\rm N}\)) dépasse le seuil (\(Th\)), le signal d'entrée est considéré comme un cri. La valeur optimale de \(Th\) Cela dépend du nombre de cris non détectés et de bruits mal détectés qui peuvent être tolérés. Si l'environnement dans lequel ce système est utilisé peut être prédit, il est souhaitable de déterminer \(Th\) expérimentalement à partir du bruit ambiant et des cris utilisés pour l'entraînement. En revanche, si on ne peut pas le prédire, il faut déterminer \(Th\) expérimentalement à partir du bruit et des cris utilisés pour l'entraînement.

3.2 Coefficients cepstraux Mel-Fréquence

Étant donné que la fréquence fondamentale et l'énergie logarithmique, qui sont des caractéristiques prosodiques, se détériorent considérablement en raison du bruit, les MFCC sont utilisés comme caractéristiques phonémiques au lieu de caractéristiques prosodiques.

Les MFCC, qui sont des coefficients cepstraux prenant en compte les caractéristiques auditives humaines, sont utilisés comme vecteurs de caractéristiques représentant le conduit vocal. Ils sont également largement utilisés dans la reconnaissance vocale, la reconnaissance du locuteur et d’autres tâches connexes. Le \(l^{\rm th}\) MFCC (\(C_t [l]\)) est calculé à l’aide des équations suivantes.

\[\begin{eqnarray*} &&\!\!\!\!\! \!\!\! C_t[l] = \sqrt{\frac{1}{M}}\sum_{m=0}^{M-1}\log\left(X_t^{\rm mel}[m]\right)\cos \left(\frac{(2m+1)\pi l}{M}\right) \tag{3} \\ &&\!\!\!\!\! X_t^{\rm mel}[m] = \sum_{k=0}^{K-1}B_{m,k}|X_t[k]|^2 \tag{4} \end{eqnarray*}\]

Le \(B_{m,k}\) est la matrice mel-filterbank utilisée dans le frontal standard ETSI [11], \(m\) et à la \(k\) sont respectivement le numéro de la banque de filtres et le bac de fréquence, \(X_t[k]\) est un spectre, et \(M\) est le nombre de bancs de filtres. La valeur de \(l\) est pris comme \(1\leq l \leq 12\).

4. Expériences

4.1 Configuration

Nous avons utilisé les cris de 40 personnes dans la base de données des cris décrite dans [2]. Le nombre total de cris était de 705, pour une durée totale de 1400 s. Les cris ont été divisés en deux groupes de 20 personnes chacun, l'un pour l'entraînement de Wave-U-Net et du scream GMM, et l'autre pour les tests. Le nombre de cris était de 438 pour l’entraînement et de 267 pour les tests. Les données ont été sous-échantillonnées à 16 kHz car il a été démontré que la composante principale des cris existe en dessous de 8 kHz [2].

Six types de données sur le bruit (« gare », « usine », « intersection », « train », « salle informatique », « climatiseur ») ont été sélectionnés dans la base de données sur le bruit de la Japan Electronic Industry Development Association (JEIDA) [12]. Pour comparer les performances des bruits connus et inconnus, « gare », « usine » et « intersection » ont été désignés comme ensemble de bruits connus, et « train », « salle informatique » et « climatiseur » ont été désignés comme inconnus. ensemble de bruit. L'ensemble de bruit connu a été utilisé pour la formation de Wave-U-Net et du GMM de bruit. Le nombre de trames de bruit était de 454,240 451,842 pour la formation et de 0 XNUMX pour les tests. Des cris bruyants pour les tests ont été superposés aux cris de l'ensemble de test avec SNR = XNUMX dB.

Les modèles Wave-U-Net ont été formés sur des extraits audio échantillonnés aléatoirement à l'aide de l'optimiseur Adam (taux d'apprentissage = 0.0001, taux de décroissance \(\beta_1\)=0.9, et \(\beta_2\)=0.999) avec une taille de lot de 16. Suite à une étude précédente [10], la taille de notre couche réseau était de 12, et nous avons défini \(F=24\) filtres supplémentaires pour chaque couche avec des filtres de bloc de sous-échantillonnage de taille \(f_d=15\) et des filtres de bloc de suréchantillonnage de taille \(f_u=5\).

L'extraction des caractéristiques a été réalisée avec les conditions d'analyse répertoriées dans le tableau 1 et le nombre de mélanges dans les GMM a été fixé à 32. Nous avons déterminé les valeurs initiales de tous les GMM par la méthode des k-moyennes. Dans la méthode conventionnelle, nous n’avons pas mis l’accent sur les cris en utilisant Wave-U-Net. Les méthodes proposées et conventionnelles ont été évaluées avec la mesure de performance \(FAR_{\rm min}\).

\[\begin{eqnarray*} &&\!\!\!\!\!\!\!\!\!\!\!\! \mathit{FAR}[\%] \!=\! \frac{\text{Num. of misdetected noise frames}}{\text{Number of evaluated noise frames}} \times\!\!100\!\! \tag{5} \\ &&\!\!\!\!\!\!\!\!\!\!\!\! \mathit{FRR}[\%] \!=\! \left(1\!-\! \frac{\text{Number of detected screams}}{\text{Number of evaluated screams}}\right) \!\times\!100 \tag{6} \\ &&\!\!\!\!\! \mathit{FAR}_{\min} = \min\ \mathit{FAR}, \ \ \ \text{subject to}\ \ \mathit{FRR} = 0 \tag{7} \end{eqnarray*}\]

Ici, FAR et à la TRF représentent respectivement le taux de fausses acceptations et le taux de faux rejets. Compte tenu de l’objectif du système de détection des cris, il est nécessaire de détecter tous les cris. Donc, \(\mathit{FAR}_{\min}\) a été utilisé pour l’évaluation. Les expériences comparent les quatre méthodes suivantes.

  • Méthode 1 : Ne pas appliquer Wave-U-Net à l’estimation ou à la détection de paramètres (méthode conventionnelle).
  • Méthode 2 : appliquer Wave-U-Net à la détection, mais pas à l’estimation des paramètres.
  • Méthode 3 : appliquer Wave-U-Net à la détection et à l’estimation des paramètres du GMM de cri, mais pas à l’estimation des paramètres du GMM de bruit.
  • Méthode 4 : Appliquer Wave-U-Net à l’estimation et à la détection des paramètres (méthode proposée).

Tableau 1  Conditions d'analyse.

4.2 Résultats et discussions

Les résultats expérimentaux sont présentés dans le tableau 2. Par rapport à la méthode 1, qui est la méthode conventionnelle, la méthode 2 a détecté les cris avec plus de précision, ce qui indique que le cri accentué est efficace pour la détection. Ensuite, entre la méthode 2 et la méthode 3, la méthode 3 était légèrement plus précise. De là, on peut dire que Wave-U-Net doit être appliqué même lors de l'estimation des paramètres du scream GMM, car les caractéristiques de fréquence des cris clairs et des cris améliorés sont différentes. Enfin, la méthode 4, la méthode proposée, s'est révélée la plus efficace dans la plupart des environnements bruyants, avec une amélioration moyenne d'environ 2.1 % par rapport à la méthode conventionnelle. Ainsi, dans la détection des cris à l'aide de Wave-U-Net, la détection optimale peut être obtenue en appliquant Wave-U-Net même lors de l'estimation des paramètres des GMM.

Tableau 2  Résultats expérimentaux [%].

Lorsque les GMM sont utilisés comme discriminateurs, les performances de détection dépendent de leurs valeurs initiales et de leur seuil de discrimination (\(Th\)). En particulier, \(Th\) doit être déterminé avec soin car cela dépend des conditions d’utilisation. Bien que le coût de calcul augmente, il est nécessaire d’envisager à l’avenir des discriminateurs indépendants du seuil utilisant l’apprentissage profond.

5.Conclusion

Dans cet article, nous avons proposé une méthode de détection des cris robuste au bruit utilisant des cris améliorés avec Wave-U-Net. Les cris améliorés présentent des caractéristiques de fréquence différentes de celles des cris clairs car les composantes harmoniques se détériorent. Par conséquent, Wave-U-Net a été délibérément appliqué aux cris clairs pour entraîner le cri GMM. Les résultats des expériences de détection des cris ont montré que le \(\mathit{FAR}_{\min}\) pourrait être réduit de 2.1 % par rapport à la méthode conventionnelle. À l'avenir, nous visons à simplifier la structure du réseau de Wave-U-Net et à développer des applications mobiles.

Remerciements

Ce travail a été soutenu par JSPS KAKENHI Grant Number 19K04935.

Références

[1] J.T. Geiger and K. Helwani, “Improving event detection for audio surveillance using Gabor filterbank features,” European Signal Processing Conference (EUSIPCO), pp.719-723, 2015.
CrossRef

[2] N. Hayasaka, A. Kawamura, and N. Sasaoka, “Noise-robust scream detection using band-limited spectral entropy,” AEU-International Journal of Electronics and Communications, vol.76, pp.117-124, 2017.
CrossRef

[3] M.K. Nandwana, A. Ziaei, and J.H.L. Hansen, “Robust unsupervised detection of human screams in noisy acoustic environments,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.161-165, 2016.
CrossRef

[4] A. Sharma and S. Kaul, “Two-stage supervised learning-based method to detect screams and cries in urban environments,” IEEE/ACM Trans. Audio, Speech, Language Process., vol.24, no.2, pp.290-299, 2015.
CrossRef

[5] P. Laffitte, D. Sodoyer, C. Tatkeu, and L. Girin, “Deep neural networks for automatic detection of screams and shouted speech in subway trains,” IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.6460-6464, 2016.
CrossRef

[6] T. Fukumori, “Deep spectral-cepstral fusion for shouted and normal speech classification,” Interspeech 2021, pp.4174-4178, Sept. 2021.
CrossRef

[7] R.C. Maher, Principles of Forensic Audio Analysis, Chapter 6, Springer, Switzerland, 2018.
CrossRef

[8] S. Pascual, A. Bonafonte, and J. Serrá, “SEGAN: Speech enhancement generative adversarial network,” arXiv:1703.09452, 2017.
CrossRef

[9] R. Kasai, N. Hayasaka, T. Futagami, and Y. Miyanaga, “Scream enhancement using Wave-U-Net,” International Workshop on Smart Info-Media Systems in Asia (SISA), pp.5-8, Sept. 2021.
CrossRef

[10]  D. Stoller, S. Ewert, and S. Dixon, “Wave-U-Net: A multi-scale neural network for end-to-end audio source separation,” Proc. 19th Int'l Society for Music Information Retrieval Conference (ISMIR), Sept. 2018.

[11]  Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithms, European Telecommunications Standards Institute 201 108 V1.1.3, Sept. 2003.

[12] JEIDA Noise Database (ELRA-SD37), http://universal.elra.info/product_info.php?cPath=37_39&products_id=53
URL

Auteurs

Noboru HAYASAKA
  Osaka Electro-Communication University
Riku KASAI
  OPTAGE Inc.
Takuya FUTAGAMI
  Osaka Electro-Communication University

Mots-clés