@techreport{oai:ipsj.ixsq.nii.ac.jp:00208151, author = {二見, 颯 and 稲熊, 寛文 and 上乃, 聖 and 三村, 正人 and 坂井, 信輔 and 河原, 達也}, issue = {2}, month = {Nov}, note = {近年,音声認識において Sequence-to-Sequence(Seq2Seq)モデルが注目されている.Seq2Seq 音声認識モデルは音声とテキストのペアデータから学習されるため,テキストデータを追加利用することが課題となっている.また,Seq2Seq モデルではある単語を予測するためにそれ以前の文脈が用いられ,以後の文脈を用いることができない.そこで,本研究では BERT をある単語の以前だけでなく以後の文脈を用いて予測を行う言語モデルとして Seq2Seq 音声認識へ適用する.適用法として BERT を教師モデル,Seq2Seq 音声認識モデルを生徒モデルとした知識蒸留法を提案する.ここで,BERT の入力として複数発話にまたがるコンテキストを利用する.主に日本語話し言葉コーパス(CSJ)上の評価実験によって,提案法による認識精度の大きな改善を確認した.さらに,従来の言語モデル適用法であるリスコアリングや Shallow Fusion と比較し,提案法は推論速度,認識精度ともに上回ることを確認した.}, title = {BERTによるSequence-to-Sequence音声認識への知識蒸留}, year = {2020} }