SOMに基づく多腕バンディットアルゴリズム

馬目, 信人; 篠原, 修二; 鈴木, 康大; 朝長, 康介; 光吉, 俊二

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

SOMに基づく多腕バンディットアルゴリズム

https://ipsj.ixsq.nii.ac.jp/records/196769

名前 / ファイル	ライセンス	アクション
IPSJ-Z81-7D-02.pdf (970.3 kB)	Copyright (c) 2019 by the Information Processing Society of Japan

Item type

National Convention(1)

公開日

2019-02-28

タイトル

SOMに基づく多腕バンディットアルゴリズム

言語

jpn

キーワード

主題Scheme

Other

主題

人工知能と認知科学

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

ソフトバンクロボティクス／東大

著者所属

東大

著者所属

ソフトバンクロボティクス／東大

著者所属

ソフトバンクロボティクス／東大

著者所属

東大

著者名

馬目, 信人
篠原, 修二
鈴木, 康大
朝長, 康介
光吉, 俊二

論文抄録

内容記述タイプ

Other

内容記述

コミュニケーションロボットにおいて対面するユーザを満足させるには，ロボットの持つ多くの行動選択肢からより早くそのユーザに適した行動を出力する必要がある．このような問題は，多腕バンディット問題として定式化される．多腕バンディット問題とは，レバーを引くとある確率で報酬が得られる腕が複数ある環境下においてどのように腕を選択すれば得られる報酬を最大化できるか考える問題である．本稿では，Self-Organizing Mapを用いた多腕バンディット問題のための新しいアルゴリズムを提案する．また，数値実験により提案アルゴリズムが既存アルゴリズムUCB1，UCB1-Tuned，Thompson Samplingに比べ，より腕の多い環境下においてより早く報酬確率の高い腕を選択できることを示す．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00349328

書誌情報

第81回全国大会講演論文集

巻 2019, 号 1, p. 87-88, 発行日 2019-02-28

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 22:37:46.101982

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

SOMに基づく多腕バンディットアルゴリズム

× 馬目, 信人

× 篠原, 修二

× 鈴木, 康大

× 朝長, 康介

× 光吉, 俊二

Versions

Share

Cite as

エクスポート