@techreport{oai:ipsj.ixsq.nii.ac.jp:00142415, author = {小宮山, 純平 and 本多, 淳也 and 鹿島, 久嗣 and 中川, 裕志 and Junpei, Komiyama and Junya, Honda and Hisashi, Kashima and Hiroshi, Nakagawa}, issue = {14}, month = {Jun}, note = {バンディット問題 (multi-armed bandit problem) は,情報の活用と探索の間のトレードオフをモデル化した問題である.バンディット問題にはいくつかの亜種があるが,そのうち比較バンデイット問題 (dueling bandit problem) と呼ばれるものは,一対比較によるフィードバックを用いて最適化を行う.比較バンディット問題の枠組みを用いることによって,検索エンジンのランキング手法の比較や,人間の選好抽出の問題に対して,効率的な最適化を行うことができる.本研究では,比較バンディット問題における理論的な性能限界およびそれを達成するアルゴリズムを提案する.このアルゴリズムは,経験尤度を用いた通常のバンディット問題におけるアルゴリズム (本多,竹村,2010) の比較バンデイット問題への拡張である.提案手法を評価するため,検索エンジンの実データにおけるランキング手法の比較や,寿司データセット (神嶌,2003) などによる人間の選好抽出における性能を既存手法と比較する., We study the K-armed dueling bandit problem, a variation of the standard stochastic bandit problem where the feedback is limited to relative comparisons of a pair of arms. Algorithms that are inspired by the Deterministic Minimum Empirical Divergence algorithm (Honda and Takemura, 2010) are proposed. The proposed algorithms are found to have a regret upper bound that matches the lower bound. Experimental comparisons of dueling bandit algorithms show that the proposed algorithms significantly outperform existing ones.}, title = {比較バンディット問題における最適なアルゴリズム~ランキング手法比較や選好情報学習を目的として~}, year = {2015} }