@techreport{oai:ipsj.ixsq.nii.ac.jp:00199665,
 author = {上乃, 聖 and 三村, 正人 and 坂井, 信輔 and 河原, 達也},
 issue = {2},
 month = {Oct},
 note = {単語単位 End-to-End 音声認識は簡潔な構造で非常に高速な認識ができ,高い性能を達成している.現在,単語単位 End-to-End 音声認識を実現する上において入力の音響特徴量として用いられるのは対数メルフィルタバンク特徴量であるが,音声波形から対数メルフィルタバンクへの変換の際に,認識に有用な情報を損失している可能性がある.本研究では,より単語単位 End-to-End 音声認識に合致した特徴量抽出のために,CNN を用い,音声波形を入力とし,特徴量抽出から単語単位認識までを 1 つのネットワークで行う手法を提案する.単語基準の損失関数を特徴量抽出まで誤差逆伝播を行うことでより適合した特徴量抽出を行うことを期待する.また,本モデルではモデル内の設定により窓幅やシフト幅を任意に変更することが可能である.そのため,より多様な特徴量抽出を行うために,提案モデルを拡張し,複数の窓の設定での特徴量抽出を用意するモデルも提案する.実験により,提案手法は従来の対数メルフィルタバンクと同等の結果を示し,対数メルフィルタバンクとは異なる特徴量抽出を行なっていることを示した.},
 title = {音声波形を入力とする単語単位End-to-End音声認識},
 year = {2019}
}