@techreport{oai:ipsj.ixsq.nii.ac.jp:02009793, author = {朴,浚鎔 and Jerry,Li}, issue = {20}, month = {May}, note = {音声言語モデルによる音声合成は近年急速に進展しているが,アニメ声等の特定ドメインに特化されたスタイル制御は依然として課題である.既存の強化学習に基づく手法では,書き起こし誤り(CER)等の検証可能な報酬のみに依存することでプロソディが平板化したり,言語ドリフトが生じるといった問題が報告されている.また,UTMOSのような汎用的な平均オピニオンスコア(MOS)予測器は知覚的自然さを捕捉できる一方で,アニメ声らしさといったスタイル次元を直接的には捉えない.本稿では,アニメ声らしさを学習した知覚的分類器を強化学習における報酬として導入し,CERを硬い制約として併用する報酬設計を提案する.日本語ベースモデルでの学習に加え,同一手法を異なる規模および言語のモデルに転用した場合の挙動を観察し,得られた音声出力に対する自動スコアおよび人手聴取試験の双方を用いて分布シフトを検証する.}, title = {ドメイン特化型の知覚的報酬を用いた強化学習によるアニメスタイル音声合成の最適化}, year = {2026} }