WEKO3
アイテム
自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究
https://ipsj.ixsq.nii.ac.jp/records/241600
https://ipsj.ixsq.nii.ac.jp/records/24160076b57d40-e8d3-4f85-968d-8f0f3bbf1c3d
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2026年12月5日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-12-05 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究 | |||||||||||
| タイトル | ||||||||||||
| 言語 | en | |||||||||||
| タイトル | A Study on G2P-free Speech Synthesis using Speech Self-Supervised Learning and T5 Model | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 特別セッション:分野横断 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 東京大学大学院電気系工学専攻 | ||||||||||||
| 著者所属 | ||||||||||||
| 東京大学大学院電気系工学専攻 | ||||||||||||
| 著者所属 | ||||||||||||
| 東京大学大学院電気系工学専攻 | ||||||||||||
| 著者名 |
朴, 浚鎔
× 朴, 浚鎔
× 齋藤, 大輔
× 峯松, 信明
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 本研究は,従来のグラフェム-音素変換(G2P)を代替する,音声合成における新しいアプローチを提案する.具体的には,音声から直接離散的なトークンを生成するディープラーニングベースのモデルを使用する.事前学習された音声自己教師あり学習(SSL)モデルを活用し,T5 エンコーダを訓練して,漢字や仮名などの混在スクリプトから疑似的な言語ラベルを生成する.この手法により,手動による音声表記の転写が不要となり,特に未転写の大規模音声データセットにおいてコスト削減とスケーラビリティの向上が実現される.本モデルは,従来の G2P ベースのテキスト音声合成システムと同等のパフォーマンスを達成し,アクセントやイントネーションなど,自然な言語的およびパラ言語的特徴を保持した音声を合成することが可能である. | |||||||||||
| 論文抄録(英) | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | This study presents a novel approach to voice synthesis that can substitute the traditional grapheme-to-phoneme (G2P) conversion by using a deep learning-based model that generates discrete tokens directly from speech. Utilizing a pre-trained voice SSL model, we train a T5 encoder to produce pseudo-language labels from mixed-script texts (e.g., containing Kanji and Kana). This method eliminates the need for manual phonetic transcription, reducing costs and enhancing scalability, especially for large non-transcribed audio datasets. Our model matches the performance of conventional G2P-based text-to-speech systems and is capable of synthesizing speech that retains natural linguistic and paralinguistic features, such as accents and intonations. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10115061 | |||||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2024-NL-262, 号 25, p. 1-6, 発行日 2024-12-05 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8779 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||