ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2021
  4. 2021-SLP-136

オーディオビジュアル目的話者抽出の 実環境動作に向けたattention機構の検討

https://ipsj.ixsq.nii.ac.jp/records/209776
https://ipsj.ixsq.nii.ac.jp/records/209776
c31a94c9-e8e2-4650-a378-3845e757757b
名前 / ファイル ライセンス アクション
IPSJ-SLP21136038.pdf IPSJ-SLP21136038.pdf (3.4 MB)
Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2021-02-24
タイトル
タイトル オーディオビジュアル目的話者抽出の 実環境動作に向けたattention機構の検討
タイトル
言語 en
タイトル Evaluation of Attention Fusion based Audio-Visual Target Speaker Extraction on Real Recordings
言語
言語 jpn
キーワード
主題Scheme Other
主題 SP2
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属(英)
en
HirNippon Telegraph and Telephone Corporation
著者所属(英)
en
Nippon Telegraph and Telephone Corporation
著者所属(英)
en
Nippon Telegraph and Telephone Corporation
著者所属(英)
en
Nippon Telegraph and Telephone Corporation
著者所属(英)
en
Nippon Telegraph and Telephone Corporation
著者所属(英)
en
Nippon Telegraph and Telephone Corporationoshi Sato
著者所属(英)
en
Tsubasa Ochiai
著者所属(英)
en
Keisuke Kinoshita
著者所属(英)
en
Marc Delcroix
著者所属(英)
en
Tomohiro Nakatani
著者所属(英)
en
Shoko Araki
著者名 佐藤, 宏

× 佐藤, 宏

佐藤, 宏

Search repository
落合, 翼

× 落合, 翼

落合, 翼

Search repository
木下, 慶介

× 木下, 慶介

木下, 慶介

Search repository
デルクロア, マーク

× デルクロア, マーク

デルクロア, マーク

Search repository
中谷, 智広

× 中谷, 智広

中谷, 智広

Search repository
荒木, 章子

× 荒木, 章子

荒木, 章子

Search repository
著者名(英) Hiroshi, Sato

× Hiroshi, Sato

en Hiroshi, Sato

Search repository
Tsubasa, Ochiai

× Tsubasa, Ochiai

en Tsubasa, Ochiai

Search repository
Keisuke, Kinoshita

× Keisuke, Kinoshita

en Keisuke, Kinoshita

Search repository
Marc, Delcroix

× Marc, Delcroix

en Marc, Delcroix

Search repository
Tomohiro, Nakatani

× Tomohiro, Nakatani

en Tomohiro, Nakatani

Search repository
Shoko, Araki

× Shoko, Araki

en Shoko, Araki

Search repository
論文抄録
内容記述タイプ Other
内容記述 目的話者抽出技術とは,目的話者に関する手がかりを用いて混合音からその話者の音声を抽出する技術である.従来目的話者手がかりとして,事前に登録した目的話者の音声(audio 手がかり) を用いる手法と,目的話者の顔の動画(visual手がかり) を用いる手法が提案されてきた.さらに近年ではより頑健に抽出が可能な手法としてaudio手がかりとvisual手がかり両者を用いるaudio-visual目的話者抽出が検討されている.これまでにaudio-visual目的話者抽出は,単一モーダルの手がかりを用いる手法と比較して頑健に動作することがシミュレーションデータに対して示されている.しかしその実環境への適用に関する検討はまだ十分なされていなかった.audio-visual 目的話者抽出の実環境適応における課題の 1 つは手がかりの欠損である.例えば撮影された visual手がかりが話者の手をはじめとする遮蔽物に隠された場合など,実環境において手がかりは必ずしも高い信頼性で得られるとは限らない.本研究では信頼性の低い手がかりの悪影響を低減し,より頑健な動作を実現するために,異なるモーダルから得られる手がかりの情報を信頼性に基づいて重みづけて統合する新たな attention機構とその学習方法を提案した.シミュレーションデータを用いた評価実験の結果,提案法は従来手法と比較して SDRを1.0 dB改善することが確認された. 加えて本研究では実収録データを作成し,提案法を用いた audio-visual目的話者抽出が実収録データに対しても動作することを示した.
論文抄録(英)
内容記述タイプ Other
内容記述 The audio-visual target speech extraction, which aims at extracting a target speaker’s voice from a mixture withaudio and visual clues, has received much interest. In previous works, the audio-visual target speaker extraction has shown more stable performance than single modality methods for simulated data. However, its adaptation towards realistic situations has not been fully explored as well as evaluations on real recorded mixtures. Especially, we focus on clue corruption problem that occurs often in real recordings. In this work, we propose a novel attention mechanism for multi-modal fusion and its training methods that enable to selective use of more reliable clues. We record an audio-visual dataset of simultaneous speech with realistic visual clue corruption, and show that audio-visual target speech extraction with our proposals successfully work on real data as well as on simulated data.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2021-SLP-136, 号 38, p. 1-6, 発行日 2021-02-24
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 18:23:40.709777
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3