Item type |
SIG Technical Reports(1) |
公開日 |
2022-06-10 |
タイトル |
|
|
タイトル |
クラウドソーシングを用いた合成音声の音質主観評価のためのワーカ選抜基準 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Worker Filtering Criteria for Subjective Evaluation of Sound Quality of Synthesized Voice Using Crowdsourcing |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション4 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学/株式会社知能フレームワーク研究所 |
著者所属 |
|
|
|
早稲田大学/株式会社知能フレームワーク研究所 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University / Intelligent Framework Lab Inc. |
著者所属(英) |
|
|
|
en |
|
|
Waseda University / Intelligent Framework Lab Inc. |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者名 |
八重樫, 萌絵
斎藤, 奨
中野, 鐵兵
小川, 哲司
|
著者名(英) |
Moe, Yaegashi
Susumu, Saito
Teppei, Nakano
Tetsuji, Ogawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
クラウドソーシングを用いた合成音声の主観評価において,クラウドワーカの選抜基準が評価結果に与える影響を調査した.現在,合成音声の主観評価においてクラウドソーシングの利活用が進んでいる.その際,所望する条件を満たすワーカに対してのみ評価を依頼できることが望ましいが,合成音声の主観評価においてそのようなワーカ選抜基準は確立されていない.それに対し本研究では,音質(歪みの度合い)の評価に焦点を当て,合成音声主観評価のためのワーカ選抜基準について検討を行った.選抜試験では,音質の違いを聞き分ける能力を評価可能にするために,抑揚,音質以外の属性は同一となるように比較タスクを設計した.さらに,ワーカが音質の違いを直感的に理解できるように,選抜試験の冒頭で歪みの多い音声を複数回連続して提示した.Amazon Mechanical Turk 上で音質評価実験を行い,i) 歪みの量に着目して評価をしているか(意図理解度),ii) 回答に整合性はあるか(回答整合率),iii) 確信をもって回答しているか(回答確信度),といった選抜基準が主観評価結果に与える影響を調査した.その結果,意図理解や回答に対する確信の度合いの測定はワーカの選抜において有効であり,そのためには,意図理解に役立つサンプル(ここでは,音質が悪い音声)を数サンプル用意して比較タスクに含めれば良いことが明らかになった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We investigate the effect of filtering criteria of crowdworkers on the subjective evaluation results of synthesized voice using crowdsourcing. Currently, crowdsourcing has been used for subjective evaluation of synthesized voice. Although it is desirable to remove workers who do not satisfy the client’s requirements, worker filtering criteria have not yet been defined. In this study, we focused on subjective evaluation of sound quality (amount of distortion) and examined filtering criteria. In the filtering test, the comparison task was designed so that attributes other than intonation and sound quality were identical in order to enable evaluation of the ability to distinguish differences in sound quality. In order for the worker to understand the difference in sound quality intuitively, we showed the workers the highly distorted voice several times repeatedly at the beginning of the evaluation. We conducted sound quality evaluation experiments on Amazon Mechanical Turk to investigate the effects of the following filtering criteria on the subjective evaluation results: i) whether the evaluation was focused on the amount of distortion (Understanding of Intent), ii) whether the responses were consistent (Response Consistency Rate), iii) whether the responses were given with confidence (Response Confidence). The results showed that measuring the degree of Understanding of Intentions and Response Confidence is effective in worker selection, and this can be achieved by including a few samples that are useful for Understanding of Intention (in this study, low sound quality voice) in the comparison task. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2022-MUS-134,
号 65,
p. 1-6,
発行日 2022-06-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |