Item type |
SIG Technical Reports(1) |
公開日 |
2022-02-22 |
タイトル |
|
|
タイトル |
IRMを用いた音声強調処理の主観了解度の上限評価-防音室実験とクラウドソーシング実験の対比- |
タイトル |
|
|
言語 |
en |
|
タイトル |
The upper limit of subjective intelligibility score for IRM speech enhancement-Comparison between laboratory and crowdsourcing experiments- |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
和歌山大学システム工学部 |
著者所属 |
|
|
|
和歌山大学システム工学部 |
著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
著者所属 |
|
|
|
NTTコミュニケーション科学基礎研究所 |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Sytems Engineering, Wakayama University |
著者所属(英) |
|
|
|
en |
|
|
Faculty of Sytems Engineering, Wakayama University |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Communication Science Laboratories |
著者名 |
山本, 絢子
入野, 俊夫
荒木, 章子
新井, 賢一
小川, 厚徳
木下, 慶介
中谷, 智広
|
著者名(英) |
Ayako, Yamamoto
Toshio, Irino
Shoko, Araki
Kenichi, Arai
Atsunori, Ogawa
Keisuke, Kinoshita
Tomohiro, Nakatani
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
音声強調処理の客観評価指標を開発することを目的として,音声了解度の主観評価実験を防音室とクラウドソーシングで行った.ここでの対象としては,シングルチャネル音声強調の性能上限を与える Ideal ratio mask (IRM) による強調処理と,音声認識の前処理として有効であるMVDR (minimum variance distortionless response) ビームフォーマによる強調処理とした.結果として,いずれの音声強調処理を施した場合でも,了解度は未処理の音声と比べて改善した.一方,各々の音声強調処理ごとに,防音室実験と遠隔実験を比べた結果に有意な差は見られなかった.また,参加者の聴取レベルをトーンピップを使って推定でき,データスクリーニングにも活用できそうなことがわかった.このことから,効率の良く収集できるクラウドソーシングによる遠隔実験結果を適切に処理すれば,厳密に統制の取れるが手間や時間がかかる防音室実験と類似な結果が得られる可能性が示唆された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We performed subjective speech intelligibility experiments in a laboratory and using crowdsourcing to get a fundamental information to develop objective measures. We evaluated several speech enhancement algorithms including methods using Ideal Ratio Mask (IRM) to reveal the upper limit of performance for both single IRM processing and multi channel MVDR (minimum variance distortionless response) beamformer. The results showed speech intelligibility scores of processed speech exceeded those of unprocessed speech. There was no significant difference between speech reception thresholds (SRTs) between laboratory and remote experiments. We introduced tone pip tests to estimate participants’ listening dynamic range. We found that the scores of tone pip tests highly correlated with the SRT value. It implies the the test is useful for data screening to match the results by remote and laboratory experiments. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-140,
号 11,
p. 1-6,
発行日 2022-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |