ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2022
  4. 2022-SLP-144

次世代Kaldiフレームワーク上の日本語音声認識システム

https://ipsj.ixsq.nii.ac.jp/records/222640
https://ipsj.ixsq.nii.ac.jp/records/222640
a7b70389-8ed1-4d60-8286-839d50ec3e3f
名前 / ファイル ライセンス アクション
IPSJ-SLP22144024.pdf IPSJ-SLP22144024.pdf (1.3 MB)
Copyright (c) 2022 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2022-11-22
タイトル
タイトル 次世代Kaldiフレームワーク上の日本語音声認識システム
タイトル
言語 en
タイトル A Japanese Automatic Speech Recognition System on the Next-Gen Kaldi Framework
言語
言語 eng
キーワード
主題Scheme Other
主題 音声認識(2)
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
電気通信大学
著者所属
電気通信大学
著者所属(英)
en
The University of Electro-Communications
著者所属(英)
en
The University of Electro-Communications
著者名 テオ, ウェンシェン

× テオ, ウェンシェン

テオ, ウェンシェン

Search repository
南, 泰浩

× 南, 泰浩

南, 泰浩

Search repository
著者名(英) Wen, Shen Teo

× Wen, Shen Teo

en Wen, Shen Teo

Search repository
Yasuhiro, Minami

× Yasuhiro, Minami

en Yasuhiro, Minami

Search repository
論文抄録
内容記述タイプ Other
内容記述 次世代 Kaldi と呼ばれる最先端の音声処理ツールキットが Kaldi の後継モデルとして 2021 年に利用されるようになった.本報告では,この次世代 Kaldi のモジュールを利用して,日本語話し言葉コーパス (CSJ) で学習したストリーミング型 RNN-Transducer 日本語音声認識システムについて述べる.この E2E モデルは,音響モデルと言語モデルを同時に学習する.本モデルで音声認識実験を行った結果,膨大なデータから学習する言語モデルを利用する他の最先端フレームワークとの比較では,その性能は十分でなかったが,Kaldi と比べた場合は Kaldi よりも低い文字誤り率 (CER) の改善が実現できた.本報告では,最初に,次世代 Kaldi の実現設定を説明し,その後実施した実験結果を示す.最後に,E2E 音声認識システムの改善を図るため,音声認識モデルの精度が低下したいくつかの理由を考察する.
論文抄録(英)
内容記述タイプ Other
内容記述 2021 saw the introduction of the cutting-edge successor to the Kaldi speech processing toolkit, known as Next-Gen Kaldi. Leveraging on the Next-Gen Kaldi family of modules in this work, we built a streaming RNN-Transducer Japanese ASR system, trained on the Corpus of Spontaneous Japanese (CSJ). Our E2E model shows a definitive Character Error Rate (CER) improvement over that of Kaldi, but still fall short when compared to state-of-the-art benchmarks from other frameworks enhanced by external language models trained on huge language data. In this paper, we first explain our experiment setups and present our results. Then, in the pursuit of an end-to-end ASR system, we raise several points of discussion where the performance of our ASR model suffered.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2022-SLP-144, 号 24, p. 1-6, 発行日 2022-11-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 13:40:10.759359
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3