2024-03-29T17:18:30Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001594542024-03-29T05:26:34Z01164:04179:08454:08706
音声中の検索語検出のための回帰結合ニューラルネットワークを用いた正解音素推定Phoneme Sequence Estimation using Recurrent Neural Network for Spoken Term Detectionjpn情報検索http://id.nii.ac.jp/1001/00159420/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=159454&item_no=1&attribute_id=1&file_no=1Copyright (c) 2016 by the Information Processing Society of Japan山梨大学大学院医工農学総合教育部山梨大学大学院総合研究部工学域澤田, 直輝西崎, 博光本稿では,Recurrent Neural Network (RNN) を用いた複数の音声認識システムの結果から音素誤りパターンを学習した正解音素推定器と,この結果を利用した音声中の検索語検出について述べる.正解音素推定器は回帰結合ニューラルネットワークの一種である Long Short-Term Memory(LSTM) を用い,LSTM で複数の音声認識システムの音素出力系列パターンを学習させることで,正しい音素を予測する.この提案手法で正解音素を推定した結果,音素認識率が大語彙音声認識システムの N-best と比較して改善した.さらに,提案手法を STD タスクに適用した結果,我々が以前に提案した条件付き確率場を用いた triphone 検出器に基づく STD システムの性能を大きく改善することができた.AN10115061研究報告自然言語処理(NL)2016-NL-2265152016-05-092188-87792016-04-27