2024-03-30T00:38:11Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001131292024-03-29T05:26:34Z01164:05159:07884:07885
残響除去手法とシステム統合手法の種々の残響環境に対する有効性: REVERBチャレンジEffectiveness of dereverberation techniques and system combination approach for various reverberant environments: REVERB challengejpn信号処理・耐雑音http://id.nii.ac.jp/1001/00113104/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=113129&item_no=1&attribute_id=1&file_no=1Copyright (c) 2015 by the Information Processing Society of Japan三菱電機株式会社情報技術総合研究所三菱電機株式会社情報技術総合研究所Mitsubishi Electric Research Laboratories太刀岡, 勇気成田, 知宏渡部, 晋治昨年公開された REVERB チャレンジには,残響音声の認識タスクが含まれる.本報では,ガウス混合モデル,部分空間ガウス混合モデルや深層回路網といった音響モデルの識別学習や,種々の特徴量変換手法といった最新の音声認識手法に焦点をあてた.その前段として,提案の単一チャンネルによる残響時間推定に基づく残響除去手法や,8 チャンネルのビームフォーミングにより直接音を間接音に比べて強調する手法に関して検討した.加えて,REVERB チャレンジでは種々の環境を扱う必要があり,環境ごとに最良のシステムが異なるため,異なる特徴量や異なる種類のシステムを統合する手法に関しても検討を加えた.さらに,補助システムを意図的に構築することで,システム統合の性能をより向上させる提案の識別学習法の有効性も検証した.実験によりこれらの手法の有効性が示され,REVERB チャレンジのシミュレーション・実測それぞれのデータに対して平均 6.76%,18.60% の単語誤り率を達成した.これはベースラインに比して,相対値で 68.8%,61.5% の向上に相当する.The recently released REVERB challenge includes a reverberant speech recognition task. This paper focuses on state-of-the-art ASR techniques such as discriminative training of acoustic models including Gaussian mixture model, sub-space Gaussian mixture model, and deep neural networks, and various feature transformations after the proposed single channel dereverberation method with reverberation time estimation and multi-channel beamforming that enhances direct sound compared with the reflected sound. In addition, because it is necessary to handle these various environments in the challenge and the best performing system is different from environment to environment, we perform a system combination approach using different feature and different types of systems. Moreover, we use our discriminative training technique for system combination that improves system combination by making systems complementary. Experiments show the effectiveness of these approaches, reaching 6.76% and 18.60% word error rate on the REVERB simulated and real test sets, which are 68.8% and 61.5% relative improvements over the baseline.AN10442647研究報告音声言語情報処理(SLP)2015-SLP-1056162015-02-202015-02-10