@techreport{oai:ipsj.ixsq.nii.ac.jp:00185809, author = {上乃, 聖 and 稲熊, 寛文 and 三村, 正人 and 河原, 達也}, issue = {16}, month = {Feb}, note = {End-to-End 音声認識が従来の DNN-HMM ハイブリッド音声認識よりも高速で簡潔であることから注目されている.特に入力の音響特徴量から出力の単語列に直接変換する単語単位 End-to-End 音声認識は外部の言語モデルが必要なく,更なる簡潔性が期待される.しかし,出現頻度の低い単語に関する学習データのスパース性が問題となる.そこで本稿では文字を出力単位としたモデルを併用する単語単位モデルを提案する.文字単位モデルを併せて学習することで単語単位モデルのオーバーフィットを軽減することが期待できる.また,単語単位モデルが未知語を出力した際に文字単位モデルで対応する文字列を参照することで未知語の推定を行う.提案手法を 「日本語話し言葉コーパス」 (CSJ) で評価を行なった結果,従来のハイブリッド音声認識よりも非常に速い処理時間で同等以上の認識精度を実現し,さらに種々の改善手法により高い性能が得られた.}, title = {CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識}, year = {2018} }