@techreport{oai:ipsj.ixsq.nii.ac.jp:00222604, author = {テオ, ウェンシェン and 南, 泰浩 and Wen, Shen Teo and Yasuhiro, Minami}, issue = {24}, month = {Nov}, note = {次世代 Kaldi と呼ばれる最先端の音声処理ツールキットが Kaldi の後継モデルとして 2021 年に利用されるようになった.本報告では,この次世代 Kaldi のモジュールを利用して,日本語話し言葉コーパス (CSJ) で学習したストリーミング型 RNN-Transducer 日本語音声認識システムについて述べる.この E2E モデルは,音響モデルと言語モデルを同時に学習する.本モデルで音声認識実験を行った結果,膨大なデータから学習する言語モデルを利用する他の最先端フレームワークとの比較では,その性能は十分でなかったが,Kaldi と比べた場合は Kaldi よりも低い文字誤り率 (CER) の改善が実現できた.本報告では,最初に,次世代 Kaldi の実現設定を説明し,その後実施した実験結果を示す.最後に,E2E 音声認識システムの改善を図るため,音声認識モデルの精度が低下したいくつかの理由を考察する., 2021 saw the introduction of the cutting-edge successor to the Kaldi speech processing toolkit, known as Next-Gen Kaldi. Leveraging on the Next-Gen Kaldi family of modules in this work, we built a streaming RNN-Transducer Japanese ASR system, trained on the Corpus of Spontaneous Japanese (CSJ). Our E2E model shows a definitive Character Error Rate (CER) improvement over that of Kaldi, but still fall short when compared to state-of-the-art benchmarks from other frameworks enhanced by external language models trained on huge language data. In this paper, we first explain our experiment setups and present our results. Then, in the pursuit of an end-to-end ASR system, we raise several points of discussion where the performance of our ASR model suffered.}, title = {次世代Kaldiフレームワーク上の日本語音声認識システム}, year = {2022} }