WEKO3
アイテム
特徴空間における長時間スペクトル変動成分の識別学習
https://ipsj.ixsq.nii.ac.jp/records/80377
https://ipsj.ixsq.nii.ac.jp/records/803772e82262b-7ab7-4b73-b176-ff30eb8f2939
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-01-27 | |||||||
タイトル | ||||||||
タイトル | 特徴空間における長時間スペクトル変動成分の識別学習 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Feature-space Discriminative Training for Long-term spectro-temporal Features | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 学習・支援 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属 | ||||||||
日本アイ・ビー・エム株式会社東京基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research - Tokyo, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research - Tokyo, IBM Japan, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
IBM Research - Tokyo, IBM Japan, Ltd. | ||||||||
著者名 |
福田, 隆
× 福田, 隆
|
|||||||
著者名(英) |
Takashi, Fukuda
× Takashi, Fukuda
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,特徴空間上の識別学習 (fMMI) が注目され,多くの認識システムで効果を挙げている.通常,識別的特徴変換器には,MFCC+ 動的特徴やセグメント特徴量 +LDA などのスペクトル変動情報を含む特徴パラメータが入力され,それが正準化空間に写像される.特徴空間上の識別学習は近代音声認識において不可欠な要素であるが,低 SNR 環境ではまだ改善の余地がある.本報告では,識別的特徴変換の枠組みに,雑音環境で頑健な性質を示す長時間スペクトル変動情報を組み込むことを提案する.提案手法は低 SNR 環境下で MFCC と動的特徴からなる標準的な特徴ベクトルセットと比較して 6.3% の性能改善を達成した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Discriminative training of feature space using a maximum mutual information (fMMI) objective function has been shown to yield remarkable accuracy improvements. MFCC and dynamic features or LDA features are usually used for discriminative feature transform to map the features into canonicalized feature space. Discriminatively trained feature space transforms are essential for modern speech recognition but still need further improvement for low SNR conditions. In this paper, we show how noise-robust long-term temporal features can be combined with fMMI to build better discriminative models for noisy speech. The fMMI combined with long-term temporal features achieved 6.3% error reduction on average in low SNR environments when compared to the short-term temporal features alone. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2012-SLP-90, 号 21, p. 1-6, 発行日 2012-01-27 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |