| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-02-22 |
| タイトル |
|
|
タイトル |
テキスト生成の自動評価尺度に基づく音声生成の自動評価 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP3 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属 |
|
|
|
カーネギーメロン大学 言語技術研究所 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属 |
|
|
|
カーネギーメロン大学 言語技術研究所 |
| 著者所属 |
|
|
|
東京大学大学院情報理工学系研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Language Technologies Institute, Carnegie Mellon University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Language Technologies Institute, Carnegie Mellon University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
| 著者名 |
佐伯, 高明
マイティ, ソウミ
高道, 慎之介
渡部, 晋治
猿渡, 洋
|
| 著者名(英) |
Takaaki, Saeki
Soumi, Maiti
Shinnosuke, Takamichi
Shinji, Watanabe
Hiroshi, Saruwatari
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
音声生成の評価において,主観的評価は長らく最も重要な基準であったが,メルケプストラル歪み(mel cepstral distortion: MCD) や mean opinion score(MOS)予測モデルなどの客観評価尺度も使用されてきた.これらの客観評価指標は,時間的・金銭的コストが低く,異なる評価結果同士を比較できるという利点があり,人間の主観的判断と高い相関を持つ客観評価尺度が求められている.本稿では,テキスト生成の評価指標に基づく,音声生成のための自動評価手法を提案する.提案する SpeechBERTScore は,生成された音声と参照音声から得られた自己教師あり音声特徴量系列に対して BERTScore を計算する.また,提案する SpeechBLEU と SpeechTokenDistance では,自己教師ありの離散音声トークンを用いて評価尺度を定義する.合成音声に関する実験的評価では,提案手法の SpeechBERTScore が,MCD や最先端の MOS 予測モデルよりも人間の主観的評価と高く相関することを示した.さらに,提案手法は劣化音声の評価に対しても効果的であり,言語横断的な適用が可能であることが明らかとなった. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 89,
p. 1-6,
発行日 2024-02-22
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |