WEKO3
アイテム
長時間スペクトル変動情報と調波構造特徴量を併用した発話区間検出法
https://ipsj.ixsq.nii.ac.jp/records/56623
https://ipsj.ixsq.nii.ac.jp/records/566238521085b-92a9-4acb-a03d-15fe64ff3eb5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-10-17 | |||||||
タイトル | ||||||||
タイトル | 長時間スペクトル変動情報と調波構造特徴量を併用した発話区間検出法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Voice activity detection using long-term spectro-temporal information and harmonic structure-based features | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Laboratory, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Laboratory, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Research Laboratory, IBM Japan, Ltd. | ||||||||
著者名 |
福田, 隆
市川, 治
西村, 雅史
× 福田, 隆 市川, 治 西村, 雅史
|
|||||||
著者名(英) |
Takashi, Fukuda
Osamu, Ichikawa
Masafumi, Nishimura
× Takashi, Fukuda Osamu, Ichikawa Masafumi, Nishimura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 高精度な発話区間検出 (VAD) の実現は,音声認識性能に直結する重要な課題であるが,高騒音下ではいまだ性能が乏しい.本報告では,スペクトルの長時間変動に着目し,低 S/N 環境下における VAD 性能の改善を目指す.提案手法は,平均音素長以上の区間から長時間変動を抽出することにより,検出性能を大幅に改善することを示す.続いて,低 S/N 環境における過剰な湧き出し誤りの削減のため,音声の調波構造に基づく特徴量を VAD システムに導入する.この特徴量は,基本周波数 (F0) の明示的な推定を必要とせず,スペクトルの長時間変動情報と併用することで高い性能を実現する.提案システムは,CENSREC-1-C を用いた評価実験において,雑音環境下での性能を顕著に改善し,標準化手法である ETSI AFE-VAD に対して 77.7% の誤り削減を達成した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Accurate voice activity detection (VAD) is important for robust automatic speech recognition (ASR) systems. However the VAD system can often fail to detect speech present segments in low S/N environments. This paper first proposes a noise-robust VAD system using long-term temporal information in speech. Long-term temporal information has been an ASR focus recently, but has not been investigated sufficiently for VAD. This paper describes an attempt to incorporate long-term temporal information into a feature parameter set by using a longer window length than average phoneme duration. Next, harmonic structure-based feature extraction is applied to the VAD system in order to reduce false alerts in low S/N environments. The proposed feature extraction doesn’t need an explicit fundamental frequency estimation. The VAD system combining long-term features with harmonic structure-based features led to considerable improvements in noisy environments and had 77.7% error reduction as compared to the standardized ETSI AFE-VAD. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 102(2008-SLP-073), p. 1-6, 発行日 2008-10-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |