@techreport{oai:ipsj.ixsq.nii.ac.jp:00094550, author = {三村正人 and 河原達也}, issue = {9}, month = {Jul}, note = {近年、深い階層構造を持つニューラルネットワーク (DNN) と HMM を組み合わせたハイブリッド型モデル (DNN-HMM) の有効性が種々の音声認識タスクで報告されている。本研究では、DNN-HMM を 『日本語話し言葉コーパス』(CSJ) を用いて構築し、種々の日本語講演音声タスクで評価を行う。また、類似話者を用いたネットワークの再学習による適応手法を提案する。DNN-HMM は CSJ の評価セットに対して、従来の GMM-HMM より 2.5% 高い認識精度を示した。また、階層を増やす毎に認識精度が向上した。CSJ と音響条件や話題の異なるシンポジウムの講演音声に対しても、すべての話者で認識精度が向上し、平均で 5.4% の向上があった。話者適応実験では、類似話者を用いた手法により 2% 精度が向上した。さらに、認識対象音声の初期認識結果と類似話者の両者を用いた再学習により 3.4% 精度が向上した。}, title = {CSJを用いた日本語講演音声認識へのDNN-HMMの適用と話者適応の検討}, year = {2013} }