@techreport{oai:ipsj.ixsq.nii.ac.jp:00220235, author = {田中, 翔平 and 湯口, 彰重 and 河野, 誠也 and 中村, 哲 and 吉野, 幸一郎}, issue = {5}, month = {Sep}, note = {人と協働する対話ロボットは,ユーザの要求に応じて適切なタスク行動を行うことが一般的である.しかしユーザの要求はしばしば顕在化されず,対話ロボットはそうした状況でも,周囲の状況を適切に読み取りユーザが必要とする行動を取ることが期待される.こうした気の利いた行動をとることができるロボットを実現するため,リビングやキッチンにおいてユーザの家事を補助するタスクを対象に,ユーザの発話と周囲の状況に対応する気の利いたロボットの行動からなるデータを構築した.データ構築の方法として,本研究では大きく分けて三段階の手順を踏んだ.まず “ペットボトルを持ってくる” など,ロボットがとることのできる気の利いた行動をあらかじめ定義し,それらの行動をとっているロボットの動画を収録した.次に収集した行動の動画をクラウドワーカーに視聴してもらい,どのような状況でロボットがその行動をとってくれたら気が利いていると思うかをテキストで入力してもらった.最後に収集した状況のテキストに基づき,ロボットが気の利いた行動をとる直前のユーザの発話が行われる状況に紐付けられた動画を収集した.一般にロボットの学習で用いることができるデータは収集コストが大きいため,本研究ではごく少数のデータを収集し,収集した画像から得られる説明的な特徴量についてのアノテーションを行った.構築した少数データセットを用いて気の利いた行動を選択するロボットを実現するため,ユーザの発話内容や画像の畳み込みのみを特徴量として用いる分類器や,説明的な特徴量も用いるマルチモーダルな分類器など,複数のベースラインモデルを構築した.構築したベースラインモデルの性能を比較したところ,単純に画像の畳み込みや事前学習モデルによる特徴量抽出を用いるよりも,人手で付与した画像特徴に関する説明的なアノテーション結果がより分類精度の向上に寄与し,画像から抽出する情報の種類が重要であることが示された.}, title = {気の利いた家庭内ロボット開発のための曖昧なユーザ要求と周囲の状況の収集}, year = {2022} }