| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-06-16 |
| タイトル |
|
|
タイトル |
低資源な叫び声合成に対するデータ拡張方法の影響 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Effects of Data Augmentation Methods on Low-Resource Scream Synthesis |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
千葉工業大学 |
| 著者所属 |
|
|
|
千葉工業大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Chiba Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Chiba Institute of Technology |
| 著者名 |
白鳥, 恵大
有本, 泰子
|
| 著者名(英) |
Keita, Shiratori
Yoshiko, Arimoto
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究は,音声対話中の自発的な叫び声を使用して自然な叫び声を合成することを目的としている.しかし,叫び声は日常場面で頻出する音声現象ではないため,学習に必要な叫び声を十分に用意することは困難である.低資源な音声を学習する場合はデータ拡張を実施することが常套手段であるが,データ拡張が叫び声合成の自然性や表現性にどのように影響するかは不明である.本研究では,複数話者の叫び声を学習する方法,加工処理を施しデータを拡張する方法,声質変換を用いて叫び声の話者を変換してデータを拡張する方法の 3 つの方法で合成を行い,データ拡張による合成音声の自然性への影響を調査した.自然性評価を行った結果,加工によるデータ拡張が男性で 2.31,女性で 3.36 と叫び声合成方法の中で最も自然性評価値が高かった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The aim of the study is to synthesize natural screams using spontaneous spoken dialogue. Since screams are not frequent vocal event in our daily life, it is difficult to prepare sufficient scream data for developing a model using a machine learning technique. One approach as a solution of low-resource issue for machine-learning is data augmentation. However, it has not been demonstrated how data augmentation affects the naturalness and expressiveness of scream synthesis. To investigate the effect of data augmentation on the naturalness and expressiveness of synthesized screams, screams synthesis was performed under three data augmentation conditions: multiple speaker dataset, data processing augmentation, and speaker conversion augmentation. According to the results of the naturalness evaluation, data augmentation by data processing exhibited the highest naturalness score among scream synthesis conditions, with MOS scores of 2.31 for male and 3.36 for female screams. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-147,
号 7,
p. 1-6,
発行日 2023-06-16
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |