ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-262

再帰的フィードバックを用いた階層的End-to-End音声認識

https://ipsj.ixsq.nii.ac.jp/records/241576
https://ipsj.ixsq.nii.ac.jp/records/241576
26266a05-a052-4df6-bfb2-87864a4f1107
名前 / ファイル ライセンス アクション
IPSJ-NL24262001.pdf IPSJ-NL24262001.pdf (467.8 kB)
 2026年12月5日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル 再帰的フィードバックを用いた階層的End-to-End音声認識
タイトル
言語 en
タイトル Hierarchical End-to-End Speech Recognition with Recursive Feedback
言語
言語 jpn
キーワード
主題Scheme Other
主題 音声認識
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
早稲田大学
著者所属
早稲田大学
著者所属
早稲田大学
著者所属
早稲田大学
著者所属(英)
en
Waseda University
著者所属(英)
en
Waseda University
著者所属(英)
en
Waseda University
著者所属(英)
en
Waseda University
著者名 楠, 奈穂美

× 楠, 奈穂美

楠, 奈穂美

Search repository
樋口, 陽祐

× 樋口, 陽祐

樋口, 陽祐

Search repository
小川, 哲司

× 小川, 哲司

小川, 哲司

Search repository
小林, 哲則

× 小林, 哲則

小林, 哲則

Search repository
著者名(英) Nahomi, Kusunoki

× Nahomi, Kusunoki

en Nahomi, Kusunoki

Search repository
Yosuke, Higuchi

× Yosuke, Higuchi

en Yosuke, Higuchi

Search repository
Tetsuji, Ogawa

× Tetsuji, Ogawa

en Tetsuji, Ogawa

Search repository
Tetsunori, Kobayashi

× Tetsunori, Kobayashi

en Tetsunori, Kobayashi

Search repository
論文抄録
内容記述タイプ Other
内容記述 End-to-End 音声認識では,単一のニューラルネットワークにより細粒度の音声信号から粗粒度の言語記号列への変換を行う.従来の End-to-End モデルでは入出力間の抽象度の差が,記号列の認識に適した特徴表現の学習や音声認識の精度向上を妨げる要因となっている.これに対し,階層的マルチタスク学習モデルでは中間層に補助的な損失を導入し,出力単位の粒度を徐々に高めることにより,粗粒度の系列推定に適した中間表現を学習することが可能になる.本研究では,階層的マルチタスク学習モデルにおける階層構造を強化するため,Connectionist Temporal Classification(CTC)に基づいた,再帰的フィードバックを用いた階層的音声認識モデルを提案する.提案モデルでは同一のモデル層を再帰的に利用し中間予測を洗練する.予測を同層での入力に明示的に条件付けることにより中間表現が洗練され,より高層での正確な予測を可能にする.LibriSpeech,TEDLIUM2,日本語話し言葉コーパスを用いた実験により提案モデルを評価したところ,提案モデルは既存の階層的マルチタスク学習モデルの認識性能を上回ることが明らかになった.また,詳細な分析により,提案モデルは単一のモデル内で精度と推論速度のバランスを制御する能力を有することが示された.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-262, 号 1, p. 1-7, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:36:56.982966
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3