ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2022
  4. 2022-MUS-134

群論を用いた声道長変換の表現と解析的正規化処理

https://ipsj.ixsq.nii.ac.jp/records/218425
https://ipsj.ixsq.nii.ac.jp/records/218425
17feff6d-debf-4098-b47d-6d0327760643
名前 / ファイル ライセンス アクション
IPSJ-MUS22134033.pdf IPSJ-MUS22134033.pdf (2.0 MB)
Copyright (c) 2022 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
MUS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2022-06-10
タイトル
タイトル 群論を用いた声道長変換の表現と解析的正規化処理
タイトル
言語 en
タイトル Representation and analytical normalization for vocal-tract-length transformation by group theory
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション2
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
名古屋大学情報学研究科
著者所属
名古屋大学情報基盤センター
著者所属(英)
en
Graduate School of Informatics, Nagoya University
著者所属(英)
en
Information Technology Center, Nagoya University
著者名 宮下, 敦志

× 宮下, 敦志

宮下, 敦志

Search repository
戸田, 智基

× 戸田, 智基

戸田, 智基

Search repository
著者名(英) Atsushi, Miyashita

× Atsushi, Miyashita

en Atsushi, Miyashita

Search repository
Tomoki, Toda

× Tomoki, Toda

en Tomoki, Toda

Search repository
論文抄録
内容記述タイプ Other
内容記述 音声認識モデルには,話者の違いによる発声の揺らぎに対して認識結果が不変であることが求められる.声道長変換はそのような揺らぎを模倣する変換の 1 つである.本報告では,全域通過フィルタによるワーピングで表される声道長変換について,群論を用いて別の変換式を与え,そこから解析的に導かれる声道長正規化処理を音声認識モデルの入力に用いる手法を提案する.提案手法では,学習データに依存しない特徴量表現を得ることが可能である.TIMIT データセットを用いた音素ラベル分類による実験的評価によって,学習データに含まれない仮想的な声道長の話者について,提案手法による汎化性能の向上が確認された.
論文抄録(英)
内容記述タイプ Other
内容記述 In automatic speech recognition, a recognition result should be invariant with respect to acoustic changes caused by different speakers. Vocal Tract Length Transformation (VTLT) is one of the typical transformations to reproduce those acoustic changes. In this report, we propose an alternative representation of VTLT based on all-pass-warping by using the group theory and an analytical approach to normalizing the acoustic changes caused by it. The proposed approach is capable of extracting the normalized feature independently on training data. An experimental result of a frame-wise phoneme classification task using TIMIT has demonstrated that the proposed method yields classification performance improvements for pseudo speakers whose vocal tract lengths are different from those of the speakers in the training data.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2022-MUS-134, 号 33, p. 1-6, 発行日 2022-06-10
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 15:09:57.167023
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3