ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-151

音声処理オープンソースツールキットESPnetの現在と未来

https://ipsj.ixsq.nii.ac.jp/records/232543
https://ipsj.ixsq.nii.ac.jp/records/232543
7123d443-713f-4085-a25b-9b4d821c523e
名前 / ファイル ライセンス アクション
IPSJ-SLP24151073.pdf IPSJ-SLP24151073.pdf (817.8 kB)
 2026年2月22日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥0, IPSJ:学会員:¥0, SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-02-22
タイトル
タイトル 音声処理オープンソースツールキットESPnetの現在と未来
言語
言語 jpn
キーワード
主題Scheme Other
主題 招待講演 SLP
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
Human Dataware Lab.
著者所属(英)
en
Human Dataware Lab.
著者名 林, 知樹

× 林, 知樹

林, 知樹

Search repository
論文抄録
内容記述タイプ Other
内容記述 ESPnetは,End-to-End (E2E) 型のモデルの研究を加速させるべく開発された,E2E 音声処理のためのオープンソースツールキットである.2018 年にリリースされた ESPnet1 では,ハイブリッド方式の音声認識ツールキットである Kaldi の代替が主な目的であった.しかし 2024 年現在では,2020 年の ESPnet2 への進化を経て,音声認識だけに留まらず,テキスト音声合成,歌声合成,音声強調,音源分離,音声翻訳,話者ダイアライゼーション,またはその組み合わせなど,10 種類以上もの音声処理タスクをサポートしている.また,Kaldi の伝統を受け継いだ再現実験のためのレシピも年々拡充されており,現在では 180 以上の音声コーパスに対する 250 以上のレシピが用意されている.本講演では,これまでの開発の歴史を振り返りながら,現在の ESPnet で実現出来ることを概説し,Open Whisper-style Speech Model (OWSM) などの最近の開発トピックや今後の計画についても紹介する.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-151, 号 73, p. 1-1, 発行日 2024-02-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:24:46.385929
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3