| Item type |
SIG Technical Reports(1) |
| 公開日 |
2022-09-29 |
| タイトル |
|
|
タイトル |
動画像からの人の飽きの検出 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Detection of human boredom from video |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
機械学習 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都大学情報学研究科 |
| 著者所属 |
|
|
|
京都大学情報学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Dept. of Informatics, Kyoto Univ |
| 著者所属(英) |
|
|
|
en |
|
|
Dept. of Informatics, Kyoto Univ |
| 著者名 |
立川, 悠輝
中澤, 篤志
|
| 著者名(英) |
Yuki, Tachikawa
Atsushi, Nakazawa
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
人の内部状態の推定は Affective インタラクティブシステムを構成するために必要不可欠な要素である.特に近年,エージェント等とのインタラクションを行わせるインタフェースが様々な場面で利用されているが,ユーザーがそのインタフェース自体を選好しているかは明らかでなく,仮にシステムがユーザーのエージェントに対する「飽き (Boredom)」が検出できれば,エージェントの動作を変化させるなどの対応が取れるため有効である.このため本研究では,ユーザーの「飽き」の状態を顔画像から認識することを目的とし,以下のような実験を行った.31 名の参加者に対し,興味があると想定される話題(食べ物,行事)と興味が無いと想定される話題(幾何学,建築)についてエージェントと会話タスクを行わせ,その間の顔動画を撮影した.顔の個人差を吸収し,表情の変化のみに着目するため,入力画像から顔領域を正規化し,Optical Flow を求める.得られた Optical Flow 列に対して 2D-CNN, 3D-CNN の二種類のネットワークを適用して学習・推定を行ったところ,飽きに対して 60% (2D-CNN), 54% (3D-CNN)(chance rate = 50%) の結果を得た.また同時に, 対象人物のパーソナリティ(外向性)および新しい技術等への受容性を推定する学習・推定を行ったところ,58% (2D-CNN),39% (3D-CNN) (chance rate = 0.25) の結果を得た.ここから,顔表情の動きを CNN で学習することにより,飽きの推定およびパーソナリティの推定が行える可能性を示し,また学習されたネットワークの可視化を行うことで,どの領域が識別根拠になっているかを推定することが可能となった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Prediction of individual internal state is an essential element to realize future affective interactive systems. Never-theless, the user interfaces that uses agents (avatar) are becoming popular in various application fields, it is not clear whether the users prefer the interaction with the agents. If the system can detect the users’ boredom with the agents, the system can change the agent’s behavior and prevent user’s boredom. In this study, we developed the algorithm to recognize the user’s ‘boredom’ from facial images. 31 participants were asked to perform a conversational task with the agent on topics that they were supposed to be interested in (e.g. food and events) and not interested in (e.g. geometry and architecture) and their facial videos are taken. For the video, we detected the facial parts and normalized the facial regions from the input images, and obtained optical flow. For the recognition, two types of networks, 2D-CNN and 3D-CNN, were developed. As the result, the recognition rate of the boredom were 60% (2D-CNN) and 54% (3D-CNN) (chance rate = 50%), respectively. Moreover, we trained the same network to identify four types of personalities of the users. As the result, the accuracy were 33% (2D-CNN) and 39% (3D-CNN) (chance rate = 25%), respectively. These results indicated that learning facial expression movements with a CNN can be used to estimate boredom and personality, and visualization of the learned network can be used to estimate which regions are the basis for discrimination. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA12049625 |
| 書誌情報 |
研究報告エンタテインメントコンピューティング(EC)
巻 2022-EC-65,
号 26,
p. 1-5,
発行日 2022-09-29
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8914 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |