ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-262

自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究

https://ipsj.ixsq.nii.ac.jp/records/241600
https://ipsj.ixsq.nii.ac.jp/records/241600
76b57d40-e8d3-4f85-968d-8f0f3bbf1c3d
名前 / ファイル ライセンス アクション
IPSJ-NL24262025.pdf IPSJ-NL24262025.pdf (1.6 MB)
 2026年12月5日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル 自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究
タイトル
言語 en
タイトル A Study on G2P-free Speech Synthesis using Speech Self-Supervised Learning and T5 Model
言語
言語 jpn
キーワード
主題Scheme Other
主題 特別セッション:分野横断
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京大学大学院電気系工学専攻
著者所属
東京大学大学院電気系工学専攻
著者所属
東京大学大学院電気系工学専攻
著者名 朴, 浚鎔

× 朴, 浚鎔

朴, 浚鎔

Search repository
齋藤, 大輔

× 齋藤, 大輔

齋藤, 大輔

Search repository
峯松, 信明

× 峯松, 信明

峯松, 信明

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究は,従来のグラフェム-音素変換(G2P)を代替する,音声合成における新しいアプローチを提案する.具体的には,音声から直接離散的なトークンを生成するディープラーニングベースのモデルを使用する.事前学習された音声自己教師あり学習(SSL)モデルを活用し,T5 エンコーダを訓練して,漢字や仮名などの混在スクリプトから疑似的な言語ラベルを生成する.この手法により,手動による音声表記の転写が不要となり,特に未転写の大規模音声データセットにおいてコスト削減とスケーラビリティの向上が実現される.本モデルは,従来の G2P ベースのテキスト音声合成システムと同等のパフォーマンスを達成し,アクセントやイントネーションなど,自然な言語的およびパラ言語的特徴を保持した音声を合成することが可能である.
論文抄録(英)
内容記述タイプ Other
内容記述 This study presents a novel approach to voice synthesis that can substitute the traditional grapheme-to-phoneme (G2P) conversion by using a deep learning-based model that generates discrete tokens directly from speech. Utilizing a pre-trained voice SSL model, we train a T5 encoder to produce pseudo-language labels from mixed-script texts (e.g., containing Kanji and Kana). This method eliminates the need for manual phonetic transcription, reducing costs and enhancing scalability, especially for large non-transcribed audio datasets. Our model matches the performance of conventional G2P-based text-to-speech systems and is capable of synthesizing speech that retains natural linguistic and paralinguistic features, such as accents and intonations.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-262, 号 25, p. 1-6, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:36:28.714104
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3