Item type |
SIG Technical Reports(1) |
公開日 |
2022-11-22 |
タイトル |
|
|
タイトル |
次世代Kaldiフレームワーク上の日本語音声認識システム |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Japanese Automatic Speech Recognition System on the Next-Gen Kaldi Framework |
言語 |
|
|
言語 |
eng |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声認識(2) |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
電気通信大学 |
著者所属 |
|
|
|
電気通信大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者名 |
テオ, ウェンシェン
南, 泰浩
|
著者名(英) |
Wen, Shen Teo
Yasuhiro, Minami
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
次世代 Kaldi と呼ばれる最先端の音声処理ツールキットが Kaldi の後継モデルとして 2021 年に利用されるようになった.本報告では,この次世代 Kaldi のモジュールを利用して,日本語話し言葉コーパス (CSJ) で学習したストリーミング型 RNN-Transducer 日本語音声認識システムについて述べる.この E2E モデルは,音響モデルと言語モデルを同時に学習する.本モデルで音声認識実験を行った結果,膨大なデータから学習する言語モデルを利用する他の最先端フレームワークとの比較では,その性能は十分でなかったが,Kaldi と比べた場合は Kaldi よりも低い文字誤り率 (CER) の改善が実現できた.本報告では,最初に,次世代 Kaldi の実現設定を説明し,その後実施した実験結果を示す.最後に,E2E 音声認識システムの改善を図るため,音声認識モデルの精度が低下したいくつかの理由を考察する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
2021 saw the introduction of the cutting-edge successor to the Kaldi speech processing toolkit, known as Next-Gen Kaldi. Leveraging on the Next-Gen Kaldi family of modules in this work, we built a streaming RNN-Transducer Japanese ASR system, trained on the Corpus of Spontaneous Japanese (CSJ). Our E2E model shows a definitive Character Error Rate (CER) improvement over that of Kaldi, but still fall short when compared to state-of-the-art benchmarks from other frameworks enhanced by external language models trained on huge language data. In this paper, we first explain our experiment setups and present our results. Then, in the pursuit of an end-to-end ASR system, we raise several points of discussion where the performance of our ASR model suffered. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-144,
号 24,
p. 1-6,
発行日 2022-11-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |