WEKO3
アイテム
Clarity Prediction Challenge 2のための音声基盤モデルベースの音声了解度の客観評価指標の調査
https://ipsj.ixsq.nii.ac.jp/records/232545
https://ipsj.ixsq.nii.ac.jp/records/2325453e484cbd-c62a-4145-a7dc-533f79830886
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
SLP:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2024-02-22 | |||||||
タイトル | ||||||||
タイトル | Clarity Prediction Challenge 2のための音声基盤モデルベースの音声了解度の客観評価指標の調査 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Investigation of objective intelligibility metrics based on speech foundation models for Clarity Prediction Challenge 2 | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | ポスターセッション3 EA/SIP | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
株式会社サイバーエージェントAI Lab | ||||||||
著者所属(英) | ||||||||
en | ||||||||
AI Lab, CyberAgent, Inc. | ||||||||
著者名 |
山本, 克彦
× 山本, 克彦
|
|||||||
著者名(英) |
Katsuhiko, Yamamoto
× Katsuhiko, Yamamoto
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Whisper のエンコーダ層などを利用した音声基盤モデル (Speech Foundation Models; SFMs) は,音声信号と雑音を分離することが示唆されている.難聴者の音声了解度を予測するコンペである Clarity Prediction Challenge 2 (CPC2) において, SFM ベースの手法でリファレンス信号を使用しない SFM-OIM (SFM-based objective intelligibility metric) が一位を獲得した.SFM-OIM は,環境音分類のために提案された Whisper-AT のネットワーク構造を,難聴者の音声了解度予測向けに拡張した手法である.本報告では,CPC2 のデータセットを用いて,Whisper から抽出された特徴量を用いた場合の SFM-OIM の実装および再現性の評価実験を実施した.また,Whisper のモデルやバッチサイズを変更した場合の結果についても述べる. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Speech Foundation Models (SFMs), which use components like the encoder layer of Whisper, have been suggested to separate speech signals from noise. In the Clarity Prediction Challenge 2 (CPC2), a competition for predicting the speech intelligibility (SI) of individuals with hearing loss, an SFM-based Objective Intelligibility Metric (SFM-OIM) that does not use reference signals took first place. The SFM-OIM is a method that extends the network structure of Whisper-AT, proposed for environmental sound classification for SI prediction of hearing-impaired listeners. This report presents the reproduction implementation and reproducibility evaluation experiments of SFM-OIM using the features extracted from Whisper with the CPC2 dataset. It also discusses the results when changing the Whisper model and batch size. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2024-SLP-151, 号 75, p. 1-6, 発行日 2024-02-22 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8663 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |