| Item type |
SIG Technical Reports(1) |
| 公開日 |
2021-06-11 |
| タイトル |
|
|
タイトル |
局所的な句構造の情報を用いたニューラル音声合成 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Neural speech synthesis using local phrase dependency structure information |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学/理化学研究所 革新知能統合研究センター |
| 著者所属 |
|
|
|
奈良先端科学技術大学院大学/理化学研究所 革新知能統合研究センター |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology / RIKEN AIP |
| 著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology / RIKEN AIP |
| 著者名 |
海木, 延佳
サクティ, サクリアニ
中村, 哲
|
| 著者名(英) |
Nobuyoshi, Kaiki
Sakriani, Sakti
Satoshi, Nakamura
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
自然な韻律をもつ日本語音声を合成するため,局所的な句構造に基づくフレーズ成分を表す韻律記号を end-to-end 音声合成に新たに導入すること提案する.本稿では,フレーズ成分を表現するために,1)句境界に係り受けの深さを表す韻律記号を追加するモデルと,2)韻律生成制御機構に基づき,フレーズ成分とアクセント成分の重畳型モデルを反映させた韻律記号を採用するの2つのモデルを提案する.この2つのモデルを用いた音声合成により,右枝分かれ境界において,1)フレーズ境界を示すポーズが生成されること.2)F0 のフレーズ成分の立て直しが生じることが観察された.アクセント成分のみの韻律記号を用いた従来モデルに対し,これら2つの提案モデルの効果を検証するため対比較の聴取実験を行った.この結果,日本語 end-to-end 音声合成に文の局所的な句境界の情報や,韻律の生成モデルを取り入れることにより,発話者の意図をより正しく反映した自然な韻律を持つ合成音声が生成できることが確認された. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In order to synthesize Japanese speech with natural prosody, we introduce an end-to-end TTS with new prosodic symbol representing phrase components based on local phrase dependency structures to end-to-end text-to-speech synthesis (TTS). In this paper, we propose two TTS models: 1) a model with prosodic symbols that represent the depth at phrase boundaries, and 2) a model with prosodic symbols that reflects a folded model of phrase and accent components based on a prosodic generation control mechanism. In synthesized speech at left-branching boundary using these two models, 1) pause indicating the phrase boundary is generated. 2) the re-rebuilding phrase component of F0 may occur. To verify the effect of these two proposed models on a conventional model using prosodic symbols using only accent components, we conducted a subjective evaluation on the AB test. As a result, it was confirmed that by using local phrase boundary information of sentences and prosodic generation model in Japanese end-to-end text-to-speech synthesis, synthetic speech with more natural prosody that reflects the intention of the utterance could be generated. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
| 書誌情報 |
研究報告音楽情報科学(MUS)
巻 2021-MUS-131,
号 64,
p. 1-6,
発行日 2021-06-11
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |