@techreport{oai:ipsj.ixsq.nii.ac.jp:00216612, author = {山本, 絢子 and 入野, 俊夫 and 荒木, 章子 and 新井, 賢一 and 小川, 厚徳 and 木下, 慶介 and 中谷, 智広 and Ayako, Yamamoto and Toshio, Irino and Shoko, Araki and Kenichi, Arai and Atsunori, Ogawa and Keisuke, Kinoshita and Tomohiro, Nakatani}, issue = {11}, month = {Feb}, note = {音声強調処理の客観評価指標を開発することを目的として,音声了解度の主観評価実験を防音室とクラウドソーシングで行った.ここでの対象としては,シングルチャネル音声強調の性能上限を与える Ideal ratio mask (IRM) による強調処理と,音声認識の前処理として有効であるMVDR (minimum variance distortionless response) ビームフォーマによる強調処理とした.結果として,いずれの音声強調処理を施した場合でも,了解度は未処理の音声と比べて改善した.一方,各々の音声強調処理ごとに,防音室実験と遠隔実験を比べた結果に有意な差は見られなかった.また,参加者の聴取レベルをトーンピップを使って推定でき,データスクリーニングにも活用できそうなことがわかった.このことから,効率の良く収集できるクラウドソーシングによる遠隔実験結果を適切に処理すれば,厳密に統制の取れるが手間や時間がかかる防音室実験と類似な結果が得られる可能性が示唆された., We performed subjective speech intelligibility experiments in a laboratory and using crowdsourcing to get a fundamental information to develop objective measures. We evaluated several speech enhancement algorithms including methods using Ideal Ratio Mask (IRM) to reveal the upper limit of performance for both single IRM processing and multi channel MVDR (minimum variance distortionless response) beamformer. The results showed speech intelligibility scores of processed speech exceeded those of unprocessed speech. There was no significant difference between speech reception thresholds (SRTs) between laboratory and remote experiments. We introduced tone pip tests to estimate participants’ listening dynamic range. We found that the scores of tone pip tests highly correlated with the SRT value. It implies the the test is useful for data screening to match the results by remote and laboratory experiments.}, title = {IRMを用いた音声強調処理の主観了解度の上限評価-防音室実験とクラウドソーシング実験の対比-}, year = {2022} }