ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2025
  4. 2025-SLP-158

離散トークンを入力とする音声認識のためのフロントエンド音声強調

https://ipsj.ixsq.nii.ac.jp/records/2006120
https://ipsj.ixsq.nii.ac.jp/records/2006120
cc7d86ae-48dc-47fb-920f-745ff969bab9
名前 / ファイル ライセンス アクション
IPSJ-SLP25158032.pdf IPSJ-SLP25158032.pdf (1.1 MB)
 2027年12月8日からダウンロード可能です。
Copyright (c) 2025 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2025-12-08
タイトル
言語 ja
タイトル 離散トークンを入力とする音声認識のためのフロントエンド音声強調
タイトル
言語 en
タイトル Noise Robust Speech Recognition Using Discrete Speech Tokens Through Frontend Speech Enhancement
言語
言語 jpn
キーワード
主題Scheme Other
主題 音声認識一般
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
NTT株式会社
著者所属
NTT株式会社
著者所属
NTT株式会社
著者所属
NTT株式会社
著者所属
NTT株式会社
著者所属(英)
en
NTT, Inc.
著者所属(英)
en
NTT, Inc.
著者所属(英)
en
NTT, Inc.
著者所属(英)
en
NTT, Inc.
著者所属(英)
en
NTT, Inc.
著者名 芦原,孝典

× 芦原,孝典

芦原,孝典

Search repository
堀口,翔太

× 堀口,翔太

堀口,翔太

Search repository
松浦,孝平

× 松浦,孝平

松浦,孝平

Search repository
落合,翼

× 落合,翼

落合,翼

Search repository
デルクロア,マーク

× デルクロア,マーク

デルクロア,マーク

Search repository
論文抄録
内容記述タイプ Other
内容記述 離散音声表現は,その圧縮率の高さから音声認識(ASR)や音声言語モデルなど,様々な音声処理タスクの入力として利用されている.例えば,意味的あるいは音素的な情報を担う離散表現(トークン)は,自己教師あり学習(SSL)モデルの潜在表現に対してクラスタリングを適用することで生成される.しかしそのような離散表現は,従来の音声特徴量と同様に背景雑音の影響を受け,音声処理精度を劣化させる.そこで本稿では,雑音下音声を入力とし,その雑音の影響を抑圧した離散トークンを推定する音声強調をフロントエンドとして導入し,その有効性をトークンを入力とするASRで評価する.具体的にはその入出力ドメインに基づいて,4種類のフロントエンド(波形→波形,トークン→トークン,SSL連続特徴量→トークン,波形→トークン)を比較する.CHiME-4データセットを用いた実験の結果,波形→トークン型のフロントエンドとの組み合わせが最も高い認識精度を示した.さらに,ほとんどの評価セットにおいて,SSL連続特徴量を入力とする従来のASRシステムをも上回った.
論文抄録(英)
内容記述タイプ Other
内容記述 Discretized representations of speech signals are efficient alternatives to continuous features for various speech applications, including automatic speech recognition (ASR) and speech language models. However, these representations, such as semantic or phonetic tokens derived from clustering outputs of self-supervised learning (SSL) speech models, are susceptible to environmental noise, which can degrade backend task performance. In this work, we introduce a frontend system that estimates clean speech tokens from noisy speech and evaluate it on an ASR backend using semantic tokens. We consider four types of enhancement models based on their input/output domains: wave-to-wave, token-to-token, continuous SSL features-to-token, and wave-to-token. These models are trained independently of ASR backends. Experiments on the CHiME-4 dataset demonstrate that wave-to-token enhancement achieves the best performance among the frontends. Moreover, it mostly outperforms the ASR system based on continuous SSL features.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2025-SLP-158, 号 32, p. 1-7, 発行日 2025-12-08
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-12-01 04:46:58.985537
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3