Item type |
SIG Technical Reports(1) |
公開日 |
2016-05-14 |
タイトル |
|
|
タイトル |
動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法:強調音声を対象とした比較検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Predicting speech intelligibility using the dynamic compressive gammachirp filterbank: comparison with the result for enhanced speech |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
Wakayama University |
著者所属 |
|
|
|
Wakayama University |
著者所属 |
|
|
|
Wakayama University |
著者所属 |
|
|
|
NTT Communication Science Laboratories |
著者所属 |
|
|
|
NTT Communication Science Laboratories |
著者所属 |
|
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
Wakayama University |
著者所属(英) |
|
|
|
en |
|
|
Wakayama University |
著者所属(英) |
|
|
|
en |
|
|
Wakayama University |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者名 |
山本, 克彦
入野, 俊夫
松井, 淑恵
荒木, 章子
木下, 慶介
中谷, 智広
|
著者名(英) |
Katsuhiko, Yamamoto
Toshio, Irino
Toshie, Matsui
Shoko, Araki
Keisuke, Kinoshita
Tomohiro, Nakatani
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
聴覚モデルベースで音声明瞭度を予測する客観的評価指標は,音声強調処理技術を評価するためにも必要不可欠である.しかし,従来法 (sEPSM) では聴覚末梢系の音圧依存特性 (圧縮特性) が反映されていない上に,スペクトル減算法以外の非線形な音声強調処理手法では評価されていなかった.本研究では,動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度の予測法 (dcGC-sEPSM) を提案した.非線形の音声強調処理手法であるスペクトル減算法とウィナーフィルタ型の雑音抑圧法を用いて聴取実験を行った.客観的評価として,提案法 (dcGC-sEPSM) および既存法 (GT-sEPSM, CSII, STOI) を用いて音声明瞭度の予測を行った.聴取実験から得られた音声明瞭度と比較した結果,提案法は既存法よりも聴取実験の傾向に近い音声明瞭度を予測することがわかった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
An objective measure index of speech intelligibility based on auditory models is essential to evaluate speech enhancement techniques. The conventional method (sEPSM) was proposed to account for subjective results on a spectral subtraction, but has not been tested by recent state-of-the-art speech enhancement algorithms. We developed a new method using the dynamic compressive gammachirp auditory filterbank (dcGC-sEPSM) for speech intelligibility (SI) prediction of synthetic sounds processed by nonlinear speech enhancement algorithms. Subjective experiments were performed by using the spectral subtraction and a recent Wiener filter algorithm. We compared the subjective SI scores with the objective SI scores predicted by the proposed dcGC-sEPSM, the original sEPSM, the three-level coherence SII (CSII), and the short-time objective intelligibility (STOI). The results show that the dcGC-sEPSM performs better than the conventional models. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2016-MUS-111,
号 20,
p. 1-6,
発行日 2016-05-14
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |