自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究

朴, 浚鎔; 齋藤, 大輔; 峯松, 信明

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究

https://ipsj.ixsq.nii.ac.jp/records/241600

名前 / ファイル	ライセンス	アクション
IPSJ-NL24262025.pdf (1.6 MB) 2026年12月5日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, NL:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-12-05

タイトル

自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究

タイトル

言語

タイトル

A Study on G2P-free Speech Synthesis using Speech Self-Supervised Learning and T5 Model

言語

jpn

キーワード

主題Scheme

Other

主題

特別セッション：分野横断

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東京大学大学院電気系工学専攻

著者所属

東京大学大学院電気系工学専攻

著者所属

東京大学大学院電気系工学専攻

著者名

朴, 浚鎔
齋藤, 大輔
峯松, 信明

論文抄録

内容記述タイプ

Other

内容記述

本研究は，従来のグラフェム-音素変換（G2P）を代替する，音声合成における新しいアプローチを提案する．具体的には，音声から直接離散的なトークンを生成するディープラーニングベースのモデルを使用する．事前学習された音声自己教師あり学習（SSL）モデルを活用し，T5 エンコーダを訓練して，漢字や仮名などの混在スクリプトから疑似的な言語ラベルを生成する．この手法により，手動による音声表記の転写が不要となり，特に未転写の大規模音声データセットにおいてコスト削減とスケーラビリティの向上が実現される．本モデルは，従来の G2P ベースのテキスト音声合成システムと同等のパフォーマンスを達成し，アクセントやイントネーションなど，自然な言語的およびパラ言語的特徴を保持した音声を合成することが可能である．

論文抄録(英)

内容記述タイプ

Other

内容記述

This study presents a novel approach to voice synthesis that can substitute the traditional grapheme-to-phoneme (G2P) conversion by using a deep learning-based model that generates discrete tokens directly from speech. Utilizing a pre-trained voice SSL model, we train a T5 encoder to produce pseudo-language labels from mixed-script texts (e.g., containing Kanji and Kana). This method eliminates the need for manual phonetic transcription, reducing costs and enhancing scalability, especially for large non-transcribed audio datasets. Our model matches the performance of conventional G2P-based text-to-speech systems and is capable of synthesizing speech that retains natural linguistic and paralinguistic features, such as accents and intonations.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10115061

書誌情報

研究報告自然言語処理（NL）

巻 2024-NL-262, 号 25, p. 1-6, 発行日 2024-12-05

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8779

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 07:36:28.714104

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究

× 朴, 浚鎔

× 齋藤, 大輔

× 峯松, 信明

Versions

Share

Cite as

エクスポート