WEKO3
アイテム
スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知
https://ipsj.ixsq.nii.ac.jp/records/211547
https://ipsj.ixsq.nii.ac.jp/records/211547c804f89a-d0de-471c-92f2-a2c999d8d686
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
MUS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2021-06-11 | |||||||
タイトル | ||||||||
タイトル | スペクトルとケプストラムの時系列特徴を用いた深層学習による悲鳴検知 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Scream detection based on deep learning using time-sequential spectral and cepstral features | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 一般発表 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
立命館大学情報理工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
College of Information Science and Engineering, Ritsumeikan University | ||||||||
著者名 |
福森, 隆寛
× 福森, 隆寛
|
|||||||
著者名(英) |
Takahiro, Fukumori
× Takahiro, Fukumori
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 平静音声と悲鳴の分類は,音響監視システムを実現する上で欠かせない技術である.近年は深層ニューラルネットワークを用いて悲鳴を検知する手法が提案されているが,Mel-frequency Cepstral Coefficients やメルスペクトルなどの低次元特徴量をネットワークの入力に用いられていることが多い.本稿では,高次元特徴量であるスペクトルとケプストラムの時系列特徴を融合した悲鳴検知手法を提案する.本研究では,畳み込みニューラルネットワーク (CNN: Convolutional Neural Network ),ゲート付きリカレントニューラルユニット (GRU: Gated Recurrent Unit),および,これらを統合したネットワーク (CNN–GRU) の 3 種類のネットワーク構造を比較する.実際の平静音声と悲鳴から構成される音声コーパスを用いて提案した特徴学習手法の有効性を検証した.雑音環境下における評価実験の結果,提案したスペクトルとケプストラムの時系列特徴に基づいた CNN-GRU が,単一の特徴量に基づいたネットワークよりも優れた分類精度を達成した.この結果は,悲鳴検知だけでなく,音響イベント検出における音声の発話状態推定に高次元特徴量が有効であることも示唆している. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Discrimination between normal speech and scream is crucial in audio surveillance and monitoring. Although deep neural networks are used in recent methods, traditional low-level speech features are applied, such as mel-frequency cepstral coefficients and the mel spectrum. This paper proposes a scream detection method that fuses high-dimensional time-sequential features in spectral and cepstral domains. We compare the following three types of architectures as base networks: convolutional neural networks (CNNs), gated recurrent unit (GRU) networks, and their combination (CNN–GRU). Using a corpus comprising real normal speech and scream, we present a comprehensive comparison with conventional methods to verify the effectiveness of the proposed feature learning method. The results of experiments conducted in various noisy environments demonstrate that the CNN–GRU based on our spectral-and-cepstral features achieves better classification performance than single feature-based networks. This finding suggests the effectiveness of using high-dimensional sources for speech-type recognition in sound event detection. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10438388 | |||||||
書誌情報 |
研究報告音楽情報科学(MUS) 巻 2021-MUS-131, 号 38, p. 1-6, 発行日 2021-06-11 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8752 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |