WEKO3
-
RootNode
アイテム
変化検出と要約データ構造を用いた利用者の嗜好の変化に迅速に追従する多腕バンディット手法
https://ipsj.ixsq.nii.ac.jp/records/208207
https://ipsj.ixsq.nii.ac.jp/records/20820752971b21-3a0f-4e21-9e05-03b9284ca8d9
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2020 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2020-11-26 | |||||||||
タイトル | ||||||||||
タイトル | 変化検出と要約データ構造を用いた利用者の嗜好の変化に迅速に追従する多腕バンディット手法 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Multi Armed Bandit Method for Following Preference Changes using Change Detection and Summary Data Structures | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 学生セッション1 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
著者所属 | ||||||||||
GMOペパボ株式会社ペパボ研究所/九州大学大学院システム情報科学府情報知能工学専攻 | ||||||||||
著者所属 | ||||||||||
GMOペパボ株式会社ペパボ研究所 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Pepabo R&D Institute, GMO Pepabo, Inc. / Department of Advanced Information Technology, Graduate School of ISEE, Kyushu University | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
Pepabo R&D Institute, GMO Pepabo, Inc. | ||||||||||
著者名 |
三宅, 悠介
× 三宅, 悠介
× 栗林, 健太郎
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 多腕バンディット問題は,腕と呼ばれる複数の候補から得られる報酬を最大化する問題である.同問題の Web サービスにおける広告配信や推薦システムへの応用では,腕となる利用者の嗜好傾向が多様である課題に対処するため,利用者の文脈を考慮した線形な問題設定への拡張と解法が提案されている.一方で,時間の経過に従い報酬分布が変化する非定常な課題に対処するため,変化検出の手法を組み合わせ報酬の変化を観察することで変化に追従する解法が提案されている.しかしながら,線形な問題設定にこの解法を適用する場合,文脈の増加に伴い各文脈での報酬の観測回数が低下するため,文脈ごとに報酬の変化を観測する方式では,変化の検出と追従が遅れてしまう.加えて,変化の検出と追従に必要な文脈ごとの報酬の履歴データのサイズも文脈の増加に伴い肥大化する.本研究では,多様な文脈であっても腕の報酬分布の変化に迅速に追従可能な,線形かつ非定常な多腕バンディット問題の解法を提案する.提案手法では,文脈ごとの報酬からではなく,文脈の数によらない固定数の値の推移のみから報酬分布の変化を検出することで,腕の報酬分布の変化に迅速に追従する.さらに,過去期間の値を要約するデータ構造を導入することで,報酬分布の変化検出と追従に必要な履歴データのサイズの肥大化を抑制する.評価では,線形かつ非定常な多腕バンディット問題を設定し,提案手法を用いない場合と比較して変化への追従性が高いこと,履歴データのサイズの肥大化が抑えられることを確認した. | |||||||||
論文抄録(英) | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | A multi-armed bandit problem is a problem that maximizes reward from making choices between candidates called arms. In the application of advertisement or recommendation system of this problem, the linear extension of problem setting and policy is proposed to deal with users' various preferences. On the other hand, the policy that follows changes by observing reward change using change detection methods is proposed to deal with non-stationary problems that change reward distribution according to time. However, this policy delays the following changes because the number of reward observations for each context decreases if the policy applies to a linear problem setting. In addition, the data size of reward history required for change detection and follow changes increases as the number of contexts increases. In this paper, we propose a non-stationary linear multi-armed bandit policy that can quickly follow changes in the reward distribution in various contexts. The proposed policy follows changes by detecting a change of reward distribution from two value transition that is independent of the number of contexts. Also, the policy suppresses the size of the historical data by introducing a data structure that summarizes the value of the past period. We set up a non-stationary and linear multi-armed bandit problem for the evaluation and confirmed our policy makes the performance increase and suppress the size of historical data. | |||||||||
書誌情報 |
インターネットと運用技術シンポジウム論文集 巻 2020, p. 1-8, 発行日 2020-11-26 |
|||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |