@article{oai:ipsj.ixsq.nii.ac.jp:00217697, author = {黒木, 祐子}, issue = {5}, journal = {情報処理}, month = {Apr}, note = {バンディット問題とは,最適な意思決定を目指す逐次的学習問題であり,オンライン広告の最適化,薬の治療などさまざまな場面に応用されている.さらに高度なシステムでは,意思決定の行動候補が組合せ的に特徴付けられている.たとえば推薦システムにおけるキーワード選択,通信ネットワークにおける接続形態,道路ネットワークにおける経路などの最適化など組合せ的な意思決定を含むものは,組合せバンディットと呼ばれ,近年注目を集めている.S. Chenらによる本論文は初めて組合せバンディットの設定で最適な行動を高確率で見つけるアルゴリズムの提案と試行回数の上界(標本複雑度)を与えた.本稿ではこの論文の背景と手法のエッセンスを紹介する.}, pages = {258--260}, title = {5分で分かる!? 有名論文ナナメ読み:Chen, S. et al. : Combinatorial Pure Exploration of Multi-armed Bandits}, volume = {63}, year = {2022} }