WEKO3
アイテム
長時間スペクトル変動と調波構造に基づく発話区間検出法の音声認識による評価
https://ipsj.ixsq.nii.ac.jp/records/66399
https://ipsj.ixsq.nii.ac.jp/records/663996fc3604e-f226-4af2-a574-0de3de79c415
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-10-16 | |||||||
タイトル | ||||||||
タイトル | 長時間スペクトル変動と調波構造に基づく発話区間検出法の音声認識による評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Evaluation of VAD using ASR based on long-term spectro-temporal and static harmonic features | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 一般講演 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research - Tokyo, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research - Tokyo, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research - Tokyo, IBM Japan, Ltd. | ||||||||
著者名 |
福田, 隆
市川, 治
西村, 雅史
× 福田, 隆 市川, 治 西村, 雅史
|
|||||||
著者名(英) |
Takashi, Fukuda
Osamu, Ichikawa
Masafumi, Nishimura
× Takashi, Fukuda Osamu, Ichikawa Masafumi, Nishimura
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 発話区間検出 (VAD) は音声認識を高精度化するための重要な要素の一つである.これまでに我々は車内環境を対象とした雑音に頑健な VAD 法を提案し,平均音素長以上の区間から抽出される長時間変動情報と調波構造情報に由来する特徴量が,VAD の性能改善に大きく寄与することを示した.しかし,過去の研究報告では発話単位の検出精度のみに注目していたため評価が限定的であった.本報告では,フレーム単位での音声/非音声識別能力,及び音声認識システムにおける提案法の効果を検証し,多方面からの考察を加える.CENSREC-2 を用いた音声認識実験において,提案法は ETSI-AFE で採用されている VAD と比較して認識誤りを 29.1% 削減した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Accurate voice activity detection (VAD) is important for robust automatic speech recognition (ASR) systems. We have proposed a statistical-model-based VAD using the long-term temporal and harmonic structure-related information in speech, which shows good robustness against noise in an automobile environment. But in our previous works, we focused on only the utterance-based speech segment detection performance. This paper further investigates frame-based speech/non-speech discrimination performance of VAD and ASR performance. In an experiment using CENSREC-2, the word error rate was reduced by 29.1% in a test that included an ASR system. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2009-SLP-78, 号 1, p. 1-6, 発行日 2009-10-16 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |