@techreport{oai:ipsj.ixsq.nii.ac.jp:00224409, author = {三村, 正人 and 井上, 昂治 and 河原, 達也 and 中村, 友彦 and 猿渡, 洋}, issue = {12}, month = {Feb}, note = {実環境下において低遅延かつ高精度で動作する話し言葉のための遠隔音声認識システムは,対話ロボットとの円滑なコミュニケーションを実現する上で必須の技術である.本研究では,多数の雑音源が存在する 4 つのロケーションにおいて様々なトピックについてのプレゼンテーション音声を遠隔マイクで収録し,遠隔話し言葉音声認識の評価を行うためのコーパスを構築する.また,種々の音声強調・音声発話区分化・音声認識手法を用いた本コーパスの音声認識ベンチマーク結果について報告する.音声強調については,特に未知の環境下で頑健に動作する教師なし音源分離に基づく手法に焦点を当てる.既存の音声・雑音データセット上で学習したオンライン音声発話区分化およびバックエンド音声認識モデルを用いた音声認識実験において,オフライン音声強調で平均文字誤り率 15.0%,ストリーミング音声強調で 16.2%の音声認識精度を達成した.}, title = {実環境下日本語話し言葉音声コーパスの構築と音声認識ベンチマーク}, year = {2023} }