@techreport{oai:ipsj.ixsq.nii.ac.jp:00241600, author = {朴, 浚鎔 and 齋藤, 大輔 and 峯松, 信明}, issue = {25}, month = {Dec}, note = {本研究は,従来のグラフェム-音素変換(G2P)を代替する,音声合成における新しいアプローチを提案する.具体的には,音声から直接離散的なトークンを生成するディープラーニングベースのモデルを使用する.事前学習された音声自己教師あり学習(SSL)モデルを活用し,T5 エンコーダを訓練して,漢字や仮名などの混在スクリプトから疑似的な言語ラベルを生成する.この手法により,手動による音声表記の転写が不要となり,特に未転写の大規模音声データセットにおいてコスト削減とスケーラビリティの向上が実現される.本モデルは,従来の G2P ベースのテキスト音声合成システムと同等のパフォーマンスを達成し,アクセントやイントネーションなど,自然な言語的およびパラ言語的特徴を保持した音声を合成することが可能である., This study presents a novel approach to voice synthesis that can substitute the traditional grapheme-to-phoneme (G2P) conversion by using a deep learning-based model that generates discrete tokens directly from speech. Utilizing a pre-trained voice SSL model, we train a T5 encoder to produce pseudo-language labels from mixed-script texts (e.g., containing Kanji and Kana). This method eliminates the need for manual phonetic transcription, reducing costs and enhancing scalability, especially for large non-transcribed audio datasets. Our model matches the performance of conventional G2P-based text-to-speech systems and is capable of synthesizing speech that retains natural linguistic and paralinguistic features, such as accents and intonations.}, title = {自己教師あり学習モデルとT5モデルを用いたG2Pフリー音声合成に関する研究}, year = {2024} }