ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-154

話者変換された叫び声に対する話者類似性評価

https://ipsj.ixsq.nii.ac.jp/records/241631
https://ipsj.ixsq.nii.ac.jp/records/241631
9820f560-1d2a-46a2-9da9-84d4e52d9b86
名前 / ファイル ライセンス アクション
IPSJ-SLP24154011.pdf IPSJ-SLP24154011.pdf (1.8 MB)
 2026年12月5日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル 話者変換された叫び声に対する話者類似性評価
タイトル
言語 en
タイトル Evaluating Speaker Similarity of Speaker Converted Screams
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
千葉工業大学
著者所属
千葉工業大学
著者所属(英)
en
Chiba Institute of Technology
著者所属(英)
en
Chiba Institute of Technology
著者名 白鳥, 恵大

× 白鳥, 恵大

白鳥, 恵大

Search repository
有本, 泰子

× 有本, 泰子

有本, 泰子

Search repository
著者名(英) Keita, Shiratori

× Keita, Shiratori

en Keita, Shiratori

Search repository
Yoshiko, Arimoto

× Yoshiko, Arimoto

en Yoshiko, Arimoto

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,叫び声合成に向けたデータ拡張方法のひとつとして叫び声の話者変換を実施した.叫び声は発話と比べても音響的に特異な発声表現であり,話者変換によって対象話者の叫び声へと変換されたことを評価することが困難な可能性がある.そこで,聴取実験による主観評価と音響特徴量を用いた客観評価によって,変換した叫び声の話者類似性を評価した.叫び声の話者類似性を評価する方法として,話者変換に使用した基本周波数や 32 次メルケプストラムに対して多次元尺度構成法(MDS)を用いた次元圧縮による分布を可視化する方法と,聴取実験による XAB テストを行う方法を採用した.MDS による分析では,CycleGAN-VC2 を利用した変換音声の方が混合正規分布モデル(GMM)を利用した変換音声よりも,対象話者の叫び声の分布の近傍に配置された.一方,聴取実験による結果では,対象話者の音声であると多く判断された音声の割合は,人間による叫び声では 65.0%,CycleGAN-VC2 を利用した変換音声では 55.7%,GMM を利用した MAP 適応による話者変換音声で 55.0% であり,いずれの条件も少なかった.MDS による評価結果と聴取実験による評価結果が矛盾した要因として,叫び声には裏声で叫ぶ音声や Creaky な音声が存在していることが考えられる.それらを話者変換したことによって自然性の低い変換音声が生成され,その変換音声の話者を判断することが困難であった可能性がある.
論文抄録(英)
内容記述タイプ Other
内容記述 In this study, speaker conversion of scream was performed for screams as a method of data augmentation for scream synthesis. Screams have specific acoustic vocal expressions compared to speech. Thus, it should be difficult to identify the speaker by hearing only his screams. In our experiment, both subjective evaluation through listening tests and objective evaluation using acoustic features were conducted to assess the speaker-similarity of the converted scream. Two methods were adopted to evaluate the speaker similarity: visualizing the distances between the coverted screams of each source speaker and the human screams of target speaker by performing Multi Dimensional Scaling (MDS) using F0 and 32-order melcepstrum, and conducting XAB tests in listening experiments. MDS analysis showed that scream converted using CycleGAN-VC2 were positioned closer to the target speaker's scream than those converted using the Gaussian Mixture Model (GMM). However, the results of the listening test revealed that the proportion of converted screams identified as the target speaker was 65.0% for human's screams, 55.7% for CycleGAN-VC2, and 55.0% for GMM-based Maximum A Posteriori (MAP) adapted screams, all of which were relatively low. This inconsistent results between the MDS evaluation and the listening test might be attributed to the voice quality of screams of the source speakers in the scream dataset. The falsetto-like screams and creaky screams were likely rated as low naturalness. It was suggested that it was difficult to judge the screams with low naturalness with respect to the speaker similarity the speaker of the converted screams.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-154, 号 11, p. 1-7, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:35:51.420585
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3