WEKO3
アイテム
音と映像の相関を用いた画像分割による話者領域の切り出し
https://ipsj.ixsq.nii.ac.jp/records/17904
https://ipsj.ixsq.nii.ac.jp/records/179047be1224e-09a2-46e4-82ac-004a497b09c6
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2008 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2008-07-24 | |||||||
タイトル | ||||||||
タイトル | 音と映像の相関を用いた画像分割による話者領域の切り出し | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Speaker Segmentation Using Audiovisual Correlation | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 基礎・セグメンテーション | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
東京大学生産技術研究所/ソニー株式会社情報技術研究所 | ||||||||
著者所属 | ||||||||
東京大学生産技術研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Institute of Industrial Science, The University of Tokyo,Information Technologies Laboratories / Sony Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Institute of Industrial Science, The University of Tokyo | ||||||||
著者名 |
劉玉宇
× 劉玉宇
|
|||||||
著者名(英) |
Yuyu, Liu
× Yuyu, Liu
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では音と映像の相関を用いて映像中の話者領域を自動で切り出す手法を提案する.これまでにも音と映像の相関を手がかりとした音源位置推定手法がいくつか提案されていたが,各画素ごとに独立な処理に基づいていたため,断片化された領域しか得られないという共通の問題が存在した.これに対し,本研究ではグラフカット最適化による画像分割処理に音と映像の相関分析を組み入れるという新たな枠組みを用いることにより,領域の断片化を抑制しつつ複雑背景から話者領域を切り出すことを実現する.複雑かつ動きをともなう背景中で話している人物の映像を用いた実験により提案手法の有効性を示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Audiovisual correlation has been used successfully for audio source localization. However, the previously proposed techniques were mainly based on local processing and, as a result, suffered from the common problem of estimated sound sources being highly fragmented. In this work, we propose a novel technique based on audiovisual correlation analysis for segmenting moving speakers appearing in complex backgrounds. The main idea of our approach is to use audiovisual correlation analysis in the context of image segmentation, so that moving speakers in complex backgrounds can be segmented out with very little or no fragmentation. First, we introduced a spatiotemporally local measure for audiovisual correlation, whose locality is the key to realize our idea. Then, we forced soft constraints in both temporal and spatial domains to incorporate visual information like boundary, region, and intra-frame motion. Finally, we used graph cut-based optimization to obtain a final segmentation. Experiments using video sequences of moving speakers in cluttered non-stationary backgrounds demonstrate the effectiveness of our technique. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11560603 | |||||||
書誌情報 |
情報処理学会論文誌コンピュータビジョンとイメージメディア(CVIM) 巻 1, 号 2, p. 32-40, 発行日 2008-07-24 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7810 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |