@article{oai:ipsj.ixsq.nii.ac.jp:00145548,
 author = {新美, 真 and 伊藤, 孝行 and Makoto, Niimi and Takayuki, Ito},
 issue = {10},
 journal = {情報処理学会論文誌},
 month = {Oct},
 note = {本研究では,多腕バンディット問題を拡張した予算制限多腕バンディット問題を取り扱う.多腕バンディット問題とは,複数台あるスロットマシンをプレイするギャンブラを模した問題である.予算制限多腕バンディット問題は多腕バンディット問題の拡張の1つで,コストと予算による制約が存在する.既存の予算制限多腕バンディット問題では静的な報酬確率分布のみを仮定しており,動的な報酬確率分布については想定していない.本研究では予算制限多腕バンディット問題および予算制限バンディットアルゴリズムを拡張し,動的な報酬確率分布を想定する.予算制限多腕バンディット問題の拡張にともない,既存の予算制限バンディットアルゴリズムを拡張したD-KUBEおよびSW-KUBEを提案する.動的な報酬確率分布による問題空間を設定し,既存手法であるKUBEと提案手法であるD-KUBEおよびSW-KUBEとの比較実験を行う.実験結果から動的な報酬確率分布において,提案手法であるD-KUBEおよびSW-KUBEは既存手法であるKUBEと比較して改善されることを確認する., We focus on the budget-limited multi-armed bandit (BL-MAB) problems. In BL-MAB problems, the agent's actions are costly and constrained by a fixed budget. The existing BL-MAB problems assume the reward distributions are static. We assume the reward distributions are dynamic. It is more natural to assume the reward distributions are dynamic. For example, online advertisement's effect is dynamic for the trends and dates. Online advertisement is one of the real-world applications of BL-MAB problems. We make new bandit algorithms D-KUBE and SW-KUBE for dynamic situations. In our experiments, we compared the existing bandit algorithm with our proposed bandit algorithms. Experiment results show that D-KUBE and SW-KUBE are better than KUBE for the dynamic reward distributions.},
 pages = {1959--1967},
 title = {動的報酬予算制限多腕バンディット問題とアルゴリズムの提案},
 volume = {56},
 year = {2015}
}