| Item type |
SIG Technical Reports(1) |
| 公開日 |
2016-08-29 |
| タイトル |
|
|
タイトル |
一人称視点映像を用いたランキング学習による相対的地位の推定 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Estimating Relative Social Status using Learning-to-Rank in First-person Perspectives |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京大学生産技術研究所 |
| 著者所属 |
|
|
|
東京大学生産技術研究所 |
| 著者所属 |
|
|
|
カーネギーメロン大学 |
| 著者所属 |
|
|
|
東京大学生産技術研究所 |
| 著者所属(英) |
|
|
|
en |
|
|
Institute of Industrial Science, the University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Institute of Industrial Science, the University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Carnegie Mellon University |
| 著者所属(英) |
|
|
|
en |
|
|
Institute of Industrial Science, the University of Tokyo |
| 著者名 |
樋口, 未来
米谷, 竜
木谷, クリス,真実
佐藤, 洋一
|
| 著者名(英) |
Mirai, Higuchi
Ryo, Yonetani
Kris, M. Kitani
Yoichi, Sato
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,ソーシャルインタラクションのさらなる理解を目的に,話者間の相対的地位を推定する手法を提案する.地位とは,例えば教授と学生等の社会的立場であり,相対的地位は,相手が目上か目下かといった社会的関係である.我々は,人との接し方が相手に応じて変化することに着目し,会話中の非言語コミュニケーションを解析することにより相対的地位を推定する.ここで,相手がどの程度目上かといった,相対的地位の大きさを定量的に定めることが難しいことが問題となる.これに対し,本研究では,相対的地位の大小関係 (例えば,学生から見た教授の相対的地位は,学生から見た助教の相対的地位よりも大きい) を決めることは難しくないということに注目し,大小関係の拘束条件を用いたランキング学習により相対的地位を求める.また,人との接し方の差異を抽出するために,会話相手を近距離かつ正面から撮像可能な一人称視点映像を用い,深層畳み込みニューラルネットワーク (CNN) により特徴量を抽出する.さらに,一人称視点映像のカメラ装着者の頭部の動きの影響を除去するために,映像中の顔の座標を基に画像を補正し,プーリング処理を行う Face-aligned spatio-temporal pooling を提案する.実験では,28 組の対面会話映像を用いて提案手法の有効性を確認した. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We address the novel problem of relative social status estimation which aims to estimate the relative difference in the social status of one person compared to another using passive wearable first-person cameras mounted on heads. While relative social status is highly subjective and hard to measure quantitatively, it has a measurable effect on human behavior (e.g, rigid posture, nods) during a social interaction. In other words, people adapt their behavior adequately according to the social context of interaction. It is, therefore, possible for us to compare relative differences between two social interaction scenes, namely, in which scene people have a wider gap in their social status. Based on these observations, we develop a data-driven ranking algorithm that learns this comparison between paired interaction sequences to regress the relative social status for a new interaction sequence. To fully exploit subtle behavior induced by various body parts, we introduce a face-aligned spatio-temporal feature pooling scheme using convolutional neural networks (CNN). We present a dataset of 28 different face-to-face conversations in realistic realistic environments. Our experiments show that our framework is able to robustly categorize different degrees of relative social status from first-person videos, and reveal which human behaviors are important for estimating relative social status. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2016-CVIM-203,
号 48,
p. 1-8,
発行日 2016-08-29
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |