Item type |
SIG Technical Reports(1) |
公開日 |
2021-02-24 |
タイトル |
|
|
タイトル |
オーディオビジュアル目的話者抽出の 実環境動作に向けたattention機構の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Evaluation of Attention Fusion based Audio-Visual Target Speaker Extraction on Real Recordings |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属(英) |
|
|
|
en |
|
|
HirNippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporationoshi Sato |
著者所属(英) |
|
|
|
en |
|
|
Tsubasa Ochiai |
著者所属(英) |
|
|
|
en |
|
|
Keisuke Kinoshita |
著者所属(英) |
|
|
|
en |
|
|
Marc Delcroix |
著者所属(英) |
|
|
|
en |
|
|
Tomohiro Nakatani |
著者所属(英) |
|
|
|
en |
|
|
Shoko Araki |
著者名 |
佐藤, 宏
落合, 翼
木下, 慶介
デルクロア, マーク
中谷, 智広
荒木, 章子
|
著者名(英) |
Hiroshi, Sato
Tsubasa, Ochiai
Keisuke, Kinoshita
Marc, Delcroix
Tomohiro, Nakatani
Shoko, Araki
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
目的話者抽出技術とは,目的話者に関する手がかりを用いて混合音からその話者の音声を抽出する技術である.従来目的話者手がかりとして,事前に登録した目的話者の音声(audio 手がかり) を用いる手法と,目的話者の顔の動画(visual手がかり) を用いる手法が提案されてきた.さらに近年ではより頑健に抽出が可能な手法としてaudio手がかりとvisual手がかり両者を用いるaudio-visual目的話者抽出が検討されている.これまでにaudio-visual目的話者抽出は,単一モーダルの手がかりを用いる手法と比較して頑健に動作することがシミュレーションデータに対して示されている.しかしその実環境への適用に関する検討はまだ十分なされていなかった.audio-visual 目的話者抽出の実環境適応における課題の 1 つは手がかりの欠損である.例えば撮影された visual手がかりが話者の手をはじめとする遮蔽物に隠された場合など,実環境において手がかりは必ずしも高い信頼性で得られるとは限らない.本研究では信頼性の低い手がかりの悪影響を低減し,より頑健な動作を実現するために,異なるモーダルから得られる手がかりの情報を信頼性に基づいて重みづけて統合する新たな attention機構とその学習方法を提案した.シミュレーションデータを用いた評価実験の結果,提案法は従来手法と比較して SDRを1.0 dB改善することが確認された. 加えて本研究では実収録データを作成し,提案法を用いた audio-visual目的話者抽出が実収録データに対しても動作することを示した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The audio-visual target speech extraction, which aims at extracting a target speaker’s voice from a mixture withaudio and visual clues, has received much interest. In previous works, the audio-visual target speaker extraction has shown more stable performance than single modality methods for simulated data. However, its adaptation towards realistic situations has not been fully explored as well as evaluations on real recorded mixtures. Especially, we focus on clue corruption problem that occurs often in real recordings. In this work, we propose a novel attention mechanism for multi-modal fusion and its training methods that enable to selective use of more reliable clues. We record an audio-visual dataset of simultaneous speech with realistic visual clue corruption, and show that audio-visual target speech extraction with our proposals successfully work on real data as well as on simulated data. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-136,
号 38,
p. 1-6,
発行日 2021-02-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |