WEKO3
アイテム
スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討
https://ipsj.ixsq.nii.ac.jp/records/56603
https://ipsj.ixsq.nii.ac.jp/records/5660344d0eaa6-f5e8-4e5d-a252-eccab4c32712
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-12-02 | |||||||
タイトル | ||||||||
タイトル | スペクトル平面における勾配ヒストグラムに基づく音声特徴量の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Study on Spectro-Temporal Features Based on Gradient Histograms | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
神戸大学工学研究科 | ||||||||
著者所属 | ||||||||
神戸大学工学研究科 | ||||||||
著者所属 | ||||||||
神戸大学工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Kobe University | ||||||||
著者名 |
室井, 貴司
× 室井, 貴司
|
|||||||
著者名(英) |
Takashi, Muroi
× Takashi, Muroi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,時間一周波数平面上における対数パワースペクトルの勾配情報に基づく特徴量を用いた音声特徴量抽出手法について検討を行う.現在,音声特徴量として MFCC が広く用いられているが,時間特徴が表現されていないという問題がある.また, △MFCC や △△MFCC は線形回帰係数であるため,時間特徴の直接的な表現でないと言えるこれに対し,本研究では,より直接的に時間特徴を表現するため,時間一周波数平面上の局所領域から勾配情報に基づく音声特徴量を抽出する手法を提案する本稿で提案する手法は,画像認識分野で用いられている SIFT (Scale Invariant Feature Transform) や HOG (Histograms of Oriented Gradients) などの勾配に基づく特徴抽出手法を音声認識に応用したものであるこれらは,物体認識や画像識別など様々な画像タスクにおいて効果を挙げている.提案手法に対し,評価実験として音素識別実験を行ったところ, MFCC と比べ,高い識別率が得られた.また, MFCC と組み合わせることにより,さらに識別精度の改善が得られた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes a novel feature extraction method for speech recognition based on gradient features on 2-D time-frequency matrix. Widely used MFCC features lack temporal dynamics and deltarMFCC is an indirect expression of temporal frequency changes. To extract the temporal dynamics more directly, local gradient features are measured in the region around reference positions. This method was originally proposed as HOG (Histograms of Oriented Gradients) and applied to human body detection in image recognition. In this paper, we develop it into gradient-based acoustic features in speech recognition. The proposed feature was evaluated on a phoneme recogni tion task and showed the significant improvement for clean speech and even for the noisy speech when combined with MFCC. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2008, 号 123(2008-SLP-074), p. 161-165, 発行日 2008-12-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |