WEKO3
アイテム
話し言葉音声合成のためのテキスト発話スタイル変換の改良
https://ipsj.ixsq.nii.ac.jp/records/241581
https://ipsj.ixsq.nii.ac.jp/records/24158192c3a9df-6ba8-4184-90e0-6cecad126ceb
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2026年12月5日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-12-05 | |||||||||||||
| タイトル | ||||||||||||||
| タイトル | 話し言葉音声合成のためのテキスト発話スタイル変換の改良 | |||||||||||||
| タイトル | ||||||||||||||
| 言語 | en | |||||||||||||
| タイトル | Improvements of Spoken-Text-Style Transfer for Spontaneous Speech Synthesis | |||||||||||||
| 言語 | ||||||||||||||
| 言語 | jpn | |||||||||||||
| キーワード | ||||||||||||||
| 主題Scheme | Other | |||||||||||||
| 主題 | ポスターセッション | |||||||||||||
| 資源タイプ | ||||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||||
| 資源タイプ | technical report | |||||||||||||
| 著者所属 | ||||||||||||||
| 徳山工業高等専門学校情報電子工学専攻 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 名古屋大学情報学研究科 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 名古屋大学情報学研究科 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 名古屋大学情報基板センター | ||||||||||||||
| 著者名 |
中田, 優翔
× 中田, 優翔
× 吉岡, 大貴
× ホワン, ウェンチン
× 戸田, 智基
|
|||||||||||||
| 論文抄録 | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | テキストスタイル変換とは,テキストの意味を保持しながら,所望のスタイルに変換する処理であり,話し言葉音声合成の前処理としての応用が期待される.本稿では,話し言葉音声の特徴である非流暢性に着目し,ノンパラレルデータを用いたテキストスタイル変換手法の改良を行う.まず,従来手法の問題点として,(1) 未知語が含まれた文に対応できない点と,(2) 非流暢性単語と他の単語の混同によりスタイル制御性能が劣化する点を解決するために,(1) Masked Language Model により未知語を既知語に一時的に置き換える手法と,(2) 非流暢性記号表現を導入する手法を提案する.さらに,(3) 非流暢性スタイルにおける話者性の影響を捉えるために,話者埋め込みを用いた話者依存非流暢性スタイル変換手法を提案する.客観評価指標に基づく実験的評価の結果から,提案手法により,(1) 未知語に対する頑健性が向上すること,(2) 非流暢性記号表現の使用によりスタイル制御性能が改善すること,(3) 話者性に基づく非流暢性単語の変換が可能であることを実証した. | |||||||||||||
| 論文抄録(英) | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | Spoken-Text-Style Transfer refers to the process of converting a given spoken text so that it has a desired style while preserving its semantic content. This process is particularly useful as a preprocessing step in spontaneous speech synthesis. In this report, we improve a non-parallel spoken-text-style transfer method to handle a disfluent style. There are two main issues in the previous method, (1) the performance degradation caused by unknown words in the input text, and (2) the performance degradation caused by confusion between disfluent words and the other words. To address these issues, we propose (1) the use of a Masked Language Model (MLM) to temporally replace unknown words with known ones, and (2) the use of Disfluency Symbol Representations (DSR). Furthermore, we propose (3) the speaker-dependent transfer method using speaker embeddings to model a speaker-dependent characteristics in a disfluent style. The experimental results of objective evaluation show that (1) the proposed method improves the robustness against unknown words by using MLM, (2) achieves higher transfer accuracy by using DSR compared with the previous method, and (3) has a potential to control disfluent words based on a given speaker information. | |||||||||||||
| 書誌レコードID | ||||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||||
| 収録物識別子 | AN10115061 | |||||||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2024-NL-262, 号 6, p. 1-6, 発行日 2024-12-05 |
|||||||||||||
| ISSN | ||||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||||
| 収録物識別子 | 2188-8779 | |||||||||||||
| Notice | ||||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||||
| 出版者 | ||||||||||||||
| 言語 | ja | |||||||||||||
| 出版者 | 情報処理学会 | |||||||||||||