Item type |
National Convention(1) |
公開日 |
2019-02-28 |
タイトル |
|
|
タイトル |
SOMに基づく多腕バンディットアルゴリズム |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
人工知能と認知科学 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
ソフトバンクロボティクス/東大 |
著者所属 |
|
|
|
東大 |
著者所属 |
|
|
|
ソフトバンクロボティクス/東大 |
著者所属 |
|
|
|
ソフトバンクロボティクス/東大 |
著者所属 |
|
|
|
東大 |
著者名 |
馬目, 信人
篠原, 修二
鈴木, 康大
朝長, 康介
光吉, 俊二
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
コミュニケーションロボットにおいて対面するユーザを満足させるには,ロボットの持つ多くの行動選択肢からより早くそのユーザに適した行動を出力する必要がある.このような問題は,多腕バンディット問題として定式化される.多腕バンディット問題とは,レバーを引くとある確率で報酬が得られる腕が複数ある環境下においてどのように腕を選択すれば得られる報酬を最大化できるか考える問題である.本稿では,Self-Organizing Mapを用いた多腕バンディット問題のための新しいアルゴリズムを提案する.また,数値実験により提案アルゴリズムが既存アルゴリズムUCB1,UCB1-Tuned,Thompson Samplingに比べ,より腕の多い環境下においてより早く報酬確率の高い腕を選択できることを示す. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00349328 |
書誌情報 |
第81回全国大会講演論文集
巻 2019,
号 1,
p. 87-88,
発行日 2019-02-28
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |