2024-03-28T22:05:14Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:002097562023-04-27T10:00:04Z01164:05159:10515:10530
大規模言語モデルによる未観測文の生成機構を持つEnd-to-Endインクリメンタル音声合成jpnポスターセッションhttp://id.nii.ac.jp/1001/00209654/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=209756&item_no=1&attribute_id=1&file_no=1Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.東京大学大学院情報理工学系研究科東京大学大学院情報理工学系研究科東京大学大学院情報理工学系研究科佐伯, 高明高道, 慎之介猿渡, 洋テキスト音声合成 (text-to-speech: TTS) は,テキスト情報から人間の発話音声を人工的に合成する技術である.近年の深層学習の発展に伴い,人間の自然音声と同程度に高品質な発話音声を生成できるend-to-end TTSモデルが提案されている.このような手法の多くは,発話文全体の長い時系列情報をモデルの入力として用いることで出力音声を合成する,発話文単位での TTS手法である.しかし,同時音声翻訳への応用など,文が逐次的にしか観測されず,かつ低遅延な処理が必要な場合,小さな言語単位ごとに逐次的に音声合成を行うインクリメンタルTTS を確立する必要がある.一般に,インクリメンタルTTSでは,出力音声品質と出力遅延との間にトレードオフが発生する.未観測の後続言語情報 (lookahead)を用いずに当該文セグメントからの合成を行う場合,遅延を限りなく抑えられる一方で,自然性の高い音 声を出力することは困難である.反対に,未観測文の入力を待ってから生成処理を行うことで自然性は向上するが,後続文観測の待機に伴う出力遅延が発生する.本研究では,大規模言語モデルを用いて擬似lookaheadを生成することで,後続文の待機時間を発生させずに未観測のコンテキストを考慮するインクリメンタルTTS手法を提案する.提案手法は,人間が文を逐次的に読み上げる際の文予測機能を,計算機的に模倣する手法と捉えることができ,多様なドメインのテキストデータで学習されたGPT2を用いて,汎用的な言語知識に基づくlookahead生成を行う.実験的評価により,提案手法は,(1) 過去のコンテキストのみを考慮したインクリメンタルTTS手法よりも有意に高品質な合成音声を出力でき,(2) 真のlookaheadの観測を待つ場合と同程度の合成音声品質を達成できることを示す.AN10442647研究報告音声言語情報処理(SLP)2021-SLP-13618162021-02-242188-86632021-02-22