ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2021
  4. 2021-MUS-131

局所的な句構造の情報を用いたニューラル音声合成

https://ipsj.ixsq.nii.ac.jp/records/211573
https://ipsj.ixsq.nii.ac.jp/records/211573
0821d85e-0ab2-4664-a69a-dd044617d6e9
名前 / ファイル ライセンス アクション
IPSJ-MUS21131064.pdf IPSJ-MUS21131064.pdf (2.2 MB)
Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
MUS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2021-06-11
タイトル
タイトル 局所的な句構造の情報を用いたニューラル音声合成
タイトル
言語 en
タイトル Neural speech synthesis using local phrase dependency structure information
言語
言語 jpn
キーワード
主題Scheme Other
主題 一般発表
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
奈良先端科学技術大学院大学
著者所属
奈良先端科学技術大学院大学/理化学研究所 革新知能統合研究センター
著者所属
奈良先端科学技術大学院大学/理化学研究所 革新知能統合研究センター
著者所属(英)
en
Nara Institute of Science and Technology
著者所属(英)
en
Nara Institute of Science and Technology / RIKEN AIP
著者所属(英)
en
Nara Institute of Science and Technology / RIKEN AIP
著者名 海木, 延佳

× 海木, 延佳

海木, 延佳

Search repository
サクティ, サクリアニ

× サクティ, サクリアニ

サクティ, サクリアニ

Search repository
中村, 哲

× 中村, 哲

中村, 哲

Search repository
著者名(英) Nobuyoshi, Kaiki

× Nobuyoshi, Kaiki

en Nobuyoshi, Kaiki

Search repository
Sakriani, Sakti

× Sakriani, Sakti

en Sakriani, Sakti

Search repository
Satoshi, Nakamura

× Satoshi, Nakamura

en Satoshi, Nakamura

Search repository
論文抄録
内容記述タイプ Other
内容記述 自然な韻律をもつ日本語音声を合成するため,局所的な句構造に基づくフレーズ成分を表す韻律記号を end-to-end 音声合成に新たに導入すること提案する.本稿では,フレーズ成分を表現するために,1)句境界に係り受けの深さを表す韻律記号を追加するモデルと,2)韻律生成制御機構に基づき,フレーズ成分とアクセント成分の重畳型モデルを反映させた韻律記号を採用するの2つのモデルを提案する.この2つのモデルを用いた音声合成により,右枝分かれ境界において,1)フレーズ境界を示すポーズが生成されること.2)F0 のフレーズ成分の立て直しが生じることが観察された.アクセント成分のみの韻律記号を用いた従来モデルに対し,これら2つの提案モデルの効果を検証するため対比較の聴取実験を行った.この結果,日本語 end-to-end 音声合成に文の局所的な句境界の情報や,韻律の生成モデルを取り入れることにより,発話者の意図をより正しく反映した自然な韻律を持つ合成音声が生成できることが確認された.
論文抄録(英)
内容記述タイプ Other
内容記述 In order to synthesize Japanese speech with natural prosody, we introduce an end-to-end TTS with new prosodic symbol representing phrase components based on local phrase dependency structures to end-to-end text-to-speech synthesis (TTS). In this paper, we propose two TTS models: 1) a model with prosodic symbols that represent the depth at phrase boundaries, and 2) a model with prosodic symbols that reflects a folded model of phrase and accent components based on a prosodic generation control mechanism. In synthesized speech at left-branching boundary using these two models, 1) pause indicating the phrase boundary is generated. 2) the re-rebuilding phrase component of F0 may occur. To verify the effect of these two proposed models on a conventional model using prosodic symbols using only accent components, we conducted a subjective evaluation on the AB test. As a result, it was confirmed that by using local phrase boundary information of sentences and prosodic generation model in Japanese end-to-end text-to-speech synthesis, synthetic speech with more natural prosody that reflects the intention of the utterance could be generated.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2021-MUS-131, 号 64, p. 1-6, 発行日 2021-06-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 17:45:15.766231
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3