@techreport{oai:ipsj.ixsq.nii.ac.jp:00226388, author = {森勢, 将雅}, issue = {17}, month = {Jun}, note = {本研究では,人間が大雑把なリクエストを与え,与えられた条件をある程度満たしつつ自然な音声を合成する音声デザイン(本プロジェクトでは,このようなデザイン法を「ビスポーク音声デザイン」として実現を目指している)に向けた取り組みを進めている.現在のテキスト音声合成(Text-to-Speech; TTS)技術は,Tacotron 2 等ですでに人間と等価な品質を実現しており,現在では表情豊かな発話や計算コストの削減など様々な方向で発展的な研究が進められている.本稿では,VOICEROID や VOICEVOX などの日本語 TTS システムにはモーラ単位でのピッチ操作機能が備わっていることに着目し,ピッチの制御性を重視した日本語 TTS システム「サーフィス」を提案する.具体的には,点ピッチパターンの考え方に着目し,モーラ単位で 7 段階のピッチ情報を与えることにより,大雑把なピッチ情報をリクエストできるシステムを試作した.本稿では実装の概要,および簡単に音質の検証をした結果を述べる.}, title = {モーラ単位で高さを制御可能な音声デザインを前提とした日本語テキスト音声合成システムの試作}, year = {2023} }