@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00196769, author = {馬目, 信人 and 篠原, 修二 and 鈴木, 康大 and 朝長, 康介 and 光吉, 俊二}, book = {第81回全国大会講演論文集}, issue = {1}, month = {Feb}, note = {コミュニケーションロボットにおいて対面するユーザを満足させるには,ロボットの持つ多くの行動選択肢からより早くそのユーザに適した行動を出力する必要がある.このような問題は,多腕バンディット問題として定式化される.多腕バンディット問題とは,レバーを引くとある確率で報酬が得られる腕が複数ある環境下においてどのように腕を選択すれば得られる報酬を最大化できるか考える問題である.本稿では,Self-Organizing Mapを用いた多腕バンディット問題のための新しいアルゴリズムを提案する.また,数値実験により提案アルゴリズムが既存アルゴリズムUCB1,UCB1-Tuned,Thompson Samplingに比べ,より腕の多い環境下においてより早く報酬確率の高い腕を選択できることを示す.}, pages = {87--88}, publisher = {情報処理学会}, title = {SOMに基づく多腕バンディットアルゴリズム}, volume = {2019}, year = {2019} }