ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 自然言語処理(NL)
  3. 2024
  4. 2024-NL-262

話し言葉音声合成のためのテキスト発話スタイル変換の改良

https://ipsj.ixsq.nii.ac.jp/records/241581
https://ipsj.ixsq.nii.ac.jp/records/241581
92c3a9df-6ba8-4184-90e0-6cecad126ceb
名前 / ファイル ライセンス アクション
IPSJ-NL24262006.pdf IPSJ-NL24262006.pdf (1.2 MB)
 2026年12月5日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-05
タイトル
タイトル 話し言葉音声合成のためのテキスト発話スタイル変換の改良
タイトル
言語 en
タイトル Improvements of Spoken-Text-Style Transfer for Spontaneous Speech Synthesis
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
徳山工業高等専門学校情報電子工学専攻
著者所属
名古屋大学情報学研究科
著者所属
名古屋大学情報学研究科
著者所属
名古屋大学情報基板センター
著者名 中田, 優翔

× 中田, 優翔

中田, 優翔

Search repository
吉岡, 大貴

× 吉岡, 大貴

吉岡, 大貴

Search repository
ホワン, ウェンチン

× ホワン, ウェンチン

ホワン, ウェンチン

Search repository
戸田, 智基

× 戸田, 智基

戸田, 智基

Search repository
論文抄録
内容記述タイプ Other
内容記述 テキストスタイル変換とは,テキストの意味を保持しながら,所望のスタイルに変換する処理であり,話し言葉音声合成の前処理としての応用が期待される.本稿では,話し言葉音声の特徴である非流暢性に着目し,ノンパラレルデータを用いたテキストスタイル変換手法の改良を行う.まず,従来手法の問題点として,(1) 未知語が含まれた文に対応できない点と,(2) 非流暢性単語と他の単語の混同によりスタイル制御性能が劣化する点を解決するために,(1) Masked Language Model により未知語を既知語に一時的に置き換える手法と,(2) 非流暢性記号表現を導入する手法を提案する.さらに,(3) 非流暢性スタイルにおける話者性の影響を捉えるために,話者埋め込みを用いた話者依存非流暢性スタイル変換手法を提案する.客観評価指標に基づく実験的評価の結果から,提案手法により,(1) 未知語に対する頑健性が向上すること,(2) 非流暢性記号表現の使用によりスタイル制御性能が改善すること,(3) 話者性に基づく非流暢性単語の変換が可能であることを実証した.
論文抄録(英)
内容記述タイプ Other
内容記述 Spoken-Text-Style Transfer refers to the process of converting a given spoken text so that it has a desired style while preserving its semantic content. This process is particularly useful as a preprocessing step in spontaneous speech synthesis. In this report, we improve a non-parallel spoken-text-style transfer method to handle a disfluent style. There are two main issues in the previous method, (1) the performance degradation caused by unknown words in the input text, and (2) the performance degradation caused by confusion between disfluent words and the other words. To address these issues, we propose (1) the use of a Masked Language Model (MLM) to temporally replace unknown words with known ones, and (2) the use of Disfluency Symbol Representations (DSR). Furthermore, we propose (3) the speaker-dependent transfer method using speaker embeddings to model a speaker-dependent characteristics in a disfluent style. The experimental results of objective evaluation show that (1) the proposed method improves the robustness against unknown words by using MLM, (2) achieves higher transfer accuracy by using DSR compared with the previous method, and (3) has a potential to control disfluent words based on a given speaker information.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10115061
書誌情報 研究報告自然言語処理(NL)

巻 2024-NL-262, 号 6, p. 1-6, 発行日 2024-12-05
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8779
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:36:50.842268
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3