テキスト生成の自動評価尺度に基づく音声生成の自動評価

佐伯, 高明; マイティ, ソウミ; 高道, 慎之介; 渡部, 晋治; 猿渡, 洋; Takaaki, Saeki; Soumi, Maiti; Shinnosuke, Takamichi; Shinji, Watanabe; Hiroshi, Saruwatari

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

テキスト生成の自動評価尺度に基づく音声生成の自動評価

https://ipsj.ixsq.nii.ac.jp/records/232559

名前 / ファイル	ライセンス	アクション
IPSJ-SLP24151089.pdf (1.0 MB)	Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-02-22

タイトル

テキスト生成の自動評価尺度に基づく音声生成の自動評価

言語

jpn

キーワード

主題Scheme

Other

主題

SP3

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東京大学大学院情報理工学系研究科

著者所属

カーネギーメロン大学言語技術研究所

著者所属

東京大学大学院情報理工学系研究科

著者所属

カーネギーメロン大学言語技術研究所

著者所属

東京大学大学院情報理工学系研究科

著者所属(英)

Graduate School of Information Science and Technology, The University of Tokyo

著者所属(英)

Language Technologies Institute, Carnegie Mellon University

著者所属(英)

Graduate School of Information Science and Technology, The University of Tokyo

著者所属(英)

Language Technologies Institute, Carnegie Mellon University

著者所属(英)

Graduate School of Information Science and Technology, The University of Tokyo

著者名

佐伯, 高明
マイティ, ソウミ
高道, 慎之介
渡部, 晋治
猿渡, 洋

著者名(英)

Takaaki, Saeki
Soumi, Maiti
Shinnosuke, Takamichi
Shinji, Watanabe
Hiroshi, Saruwatari

論文抄録

内容記述タイプ

Other

内容記述

音声生成の評価において，主観的評価は長らく最も重要な基準であったが，メルケプストラル歪み（mel cepstral distortion: MCD）や mean opinion score（MOS）予測モデルなどの客観評価尺度も使用されてきた．これらの客観評価指標は，時間的・金銭的コストが低く，異なる評価結果同士を比較できるという利点があり，人間の主観的判断と高い相関を持つ客観評価尺度が求められている．本稿では，テキスト生成の評価指標に基づく，音声生成のための自動評価手法を提案する．提案する SpeechBERTScore は，生成された音声と参照音声から得られた自己教師あり音声特徴量系列に対して BERTScore を計算する．また，提案する SpeechBLEU と SpeechTokenDistance では，自己教師ありの離散音声トークンを用いて評価尺度を定義する．合成音声に関する実験的評価では，提案手法の SpeechBERTScore が，MCD や最先端の MOS 予測モデルよりも人間の主観的評価と高く相関することを示した．さらに，提案手法は劣化音声の評価に対しても効果的であり，言語横断的な適用が可能であることが明らかとなった．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2024-SLP-151, 号 89, p. 1-6, 発行日 2024-02-22

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 10:24:27.459179

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

テキスト生成の自動評価尺度に基づく音声生成の自動評価

× 佐伯, 高明

× マイティ, ソウミ

× 高道, 慎之介

× 渡部, 晋治

× 猿渡, 洋

× Takaaki, Saeki

× Soumi, Maiti

× Shinnosuke, Takamichi

× Shinji, Watanabe

× Hiroshi, Saruwatari

Versions

Share

Cite as

エクスポート