WEKO3
アイテム
ドメイン特化型の知覚的報酬を用いた強化学習によるアニメスタイル音声合成の最適化
https://ipsj.ixsq.nii.ac.jp/records/2009793
https://ipsj.ixsq.nii.ac.jp/records/20097934dce9859-e3da-4afa-9ace-b2631d411103
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
9999年1月1日からダウンロード可能です。
|
Copyright (c) 2026 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
| MUS:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2026-05-29 | |||||||||
| タイトル | ||||||||||
| 言語 | ja | |||||||||
| タイトル | ドメイン特化型の知覚的報酬を用いた強化学習によるアニメスタイル音声合成の最適化 | |||||||||
| タイトル | ||||||||||
| 言語 | en | |||||||||
| タイトル | Optimizing Anime-Style Speech Synthesis via Reinforcement Learning with a Domain-Specific Perceptual Reward | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | SP | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
| 資源タイプ | technical report | |||||||||
| 著者所属 | ||||||||||
| Spellbrush | ||||||||||
| 著者所属 | ||||||||||
| Spellbrush | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Spellbrush | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Spellbrush | ||||||||||
| 著者名 |
朴,浚鎔
× 朴,浚鎔
× Jerry,Li
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 音声言語モデルによる音声合成は近年急速に進展しているが,アニメ声等の特定ドメインに特化されたスタイル制御は依然として課題である.既存の強化学習に基づく手法では,書き起こし誤り(CER)等の検証可能な報酬のみに依存することでプロソディが平板化したり,言語ドリフトが生じるといった問題が報告されている.また,UTMOSのような汎用的な平均オピニオンスコア(MOS)予測器は知覚的自然さを捕捉できる一方で,アニメ声らしさといったスタイル次元を直接的には捉えない.本稿では,アニメ声らしさを学習した知覚的分類器を強化学習における報酬として導入し,CERを硬い制約として併用する報酬設計を提案する.日本語ベースモデルでの学習に加え,同一手法を異なる規模および言語のモデルに転用した場合の挙動を観察し,得られた音声出力に対する自動スコアおよび人手聴取試験の双方を用いて分布シフトを検証する. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN10438388 | |||||||||
| 書誌情報 |
研究報告音楽情報科学(MUS) 巻 2026-MUS-146, 号 20, p. 1-6, 発行日 2026-05-29 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 2188-8752 | |||||||||
| Notice | ||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||