オーディオビジュアル目的話者抽出の 実環境動作に向けたattention機構の検討

佐藤, 宏; 落合, 翼; 木下, 慶介; デルクロア, マーク; 中谷, 智広; 荒木, 章子; Hiroshi, Sato; Tsubasa, Ochiai; Keisuke, Kinoshita; Marc, Delcroix; Tomohiro, Nakatani; Shoko, Araki

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

オーディオビジュアル目的話者抽出の実環境動作に向けたattention機構の検討

https://ipsj.ixsq.nii.ac.jp/records/209776

名前 / ファイル	ライセンス	アクション
IPSJ-SLP21136038.pdf (3.4 MB)	Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2021-02-24

タイトル

オーディオビジュアル目的話者抽出の実環境動作に向けたattention機構の検討

タイトル

言語

タイトル

Evaluation of Attention Fusion based Audio-Visual Target Speaker Extraction on Real Recordings

言語

jpn

キーワード

主題Scheme

Other

主題

SP2

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

日本電信電話株式会社

著者所属

日本電信電話株式会社

著者所属

日本電信電話株式会社

著者所属

日本電信電話株式会社

著者所属

日本電信電話株式会社

著者所属

日本電信電話株式会社

著者所属(英)

HirNippon Telegraph and Telephone Corporation

著者所属(英)

Nippon Telegraph and Telephone Corporation

著者所属(英)

Nippon Telegraph and Telephone Corporation

著者所属(英)

Nippon Telegraph and Telephone Corporation

著者所属(英)

Nippon Telegraph and Telephone Corporation

著者所属(英)

Nippon Telegraph and Telephone Corporationoshi Sato

著者所属(英)

Tsubasa Ochiai

著者所属(英)

Keisuke Kinoshita

著者所属(英)

Marc Delcroix

著者所属(英)

Tomohiro Nakatani

著者所属(英)

Shoko Araki

著者名

佐藤, 宏
落合, 翼
木下, 慶介
デルクロア, マーク
中谷, 智広
荒木, 章子

著者名(英)

Hiroshi, Sato
Tsubasa, Ochiai
Keisuke, Kinoshita
Marc, Delcroix
Tomohiro, Nakatani
Shoko, Araki

論文抄録

内容記述タイプ

Other

内容記述

目的話者抽出技術とは，目的話者に関する手がかりを用いて混合音からその話者の音声を抽出する技術である．従来目的話者手がかりとして，事前に登録した目的話者の音声(audio 手がかり) を用いる手法と，目的話者の顔の動画(visual手がかり) を用いる手法が提案されてきた．さらに近年ではより頑健に抽出が可能な手法としてaudio手がかりとvisual手がかり両者を用いるaudio-visual目的話者抽出が検討されている．これまでにaudio-visual目的話者抽出は，単一モーダルの手がかりを用いる手法と比較して頑健に動作することがシミュレーションデータに対して示されている．しかしその実環境への適用に関する検討はまだ十分なされていなかった．audio-visual 目的話者抽出の実環境適応における課題の 1 つは手がかりの欠損である．例えば撮影された visual手がかりが話者の手をはじめとする遮蔽物に隠された場合など，実環境において手がかりは必ずしも高い信頼性で得られるとは限らない．本研究では信頼性の低い手がかりの悪影響を低減し，より頑健な動作を実現するために，異なるモーダルから得られる手がかりの情報を信頼性に基づいて重みづけて統合する新たな attention機構とその学習方法を提案した．シミュレーションデータを用いた評価実験の結果，提案法は従来手法と比較して SDRを1.0 dB改善することが確認された．加えて本研究では実収録データを作成し，提案法を用いた audio-visual目的話者抽出が実収録データに対しても動作することを示した.

論文抄録(英)

内容記述タイプ

Other

内容記述

The audio-visual target speech extraction, which aims at extracting a target speaker’s voice from a mixture withaudio and visual clues, has received much interest. In previous works, the audio-visual target speaker extraction has shown more stable performance than single modality methods for simulated data. However, its adaptation towards realistic situations has not been fully explored as well as evaluations on real recorded mixtures. Especially, we focus on clue corruption problem that occurs often in real recordings. In this work, we propose a novel attention mechanism for multi-modal fusion and its training methods that enable to selective use of more reliable clues. We record an audio-visual dataset of simultaneous speech with realistic visual clue corruption, and show that audio-visual target speech extraction with our proposals successfully work on real data as well as on simulated data.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2021-SLP-136, 号 38, p. 1-6, 発行日 2021-02-24

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 18:23:40.709777

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

オーディオビジュアル目的話者抽出の実環境動作に向けたattention機構の検討

× 佐藤, 宏

× 落合, 翼

× 木下, 慶介

× デルクロア, マーク

× 中谷, 智広

× 荒木, 章子

× Hiroshi, Sato

× Tsubasa, Ochiai

× Keisuke, Kinoshita

× Marc, Delcroix

× Tomohiro, Nakatani

× Shoko, Araki

Versions

Share

Cite as

エクスポート

インデックスリンク

インデックスツリー

アイテム

オーディオビジュアル目的話者抽出の 実環境動作に向けたattention機構の検討

× 佐藤, 宏

× 落合, 翼

× 木下, 慶介

× デルクロア, マーク

× 中谷, 智広

× 荒木, 章子

× Hiroshi, Sato

× Tsubasa, Ochiai

× Keisuke, Kinoshita

× Marc, Delcroix

× Tomohiro, Nakatani

× Shoko, Araki

Versions

Share

Cite as

エクスポート

オーディオビジュアル目的話者抽出の実環境動作に向けたattention機構の検討