ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ゲームプログラミングワークショップ(GPWS)
  4. 2022

3 × 3盤面の2048の完全解析と強化学習の研究

https://ipsj.ixsq.nii.ac.jp/records/221984
https://ipsj.ixsq.nii.ac.jp/records/221984
543baa9c-d2ca-4bac-89c7-6d3dd9dbf4a3
名前 / ファイル ライセンス アクション
IPSJ-GPWS2022001.pdf IPSJ-GPWS2022001.pdf (1.5 MB)
Copyright (c) 2022 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2022-11-04
タイトル
タイトル 3 × 3盤面の2048の完全解析と強化学習の研究
タイトル
言語 en
タイトル Strongly Solving 2048 on 3 × 3 Board and Performance Evaluation of Reinforcement Learning Agents
言語
言語 jpn
キーワード
主題Scheme Other
主題 game2048
キーワード
主題Scheme Other
主題 完全解析
キーワード
主題Scheme Other
主題 AlphaZero
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
東京大学大学院総合文化研究科
著者所属(英)
en
Graduate School of Arts and Sciences, The University of Tokyo
著者名 山下, 修平

× 山下, 修平

山下, 修平

Search repository
金子, 知適

× 金子, 知適

金子, 知適

Search repository
中屋敷, 太一

× 中屋敷, 太一

中屋敷, 太一

Search repository
著者名(英) Shuhei, Yamashita

× Shuhei, Yamashita

en Shuhei, Yamashita

Search repository
Tomoyuki, Kaneko

× Tomoyuki, Kaneko

en Tomoyuki, Kaneko

Search repository
Taichi, Nakayashiki

× Taichi, Nakayashiki

en Taichi, Nakayashiki

Search repository
論文抄録
内容記述タイプ Other
内容記述 1 人用ゲーム2048 は強化学習手法の性能の評価の題材として適している.これまで行われてきた得点による評価に加えて,最適方策との比較を定量的に行えるとより良い.そこで本研究では2048 を3 × 3 盤面に縮小したゲームであるミニ2048 を考案した.ミニ2048 はオリジナルの2048 の興味深い性質を受け継ぎつつ,盤面の小ささから完全解析を行うことができる.完全解析ではミニ2048 の状態数,最適方策に従ったときに得られる得点などの指標に加えて遷移モデルを少し変更したときの変化についても調査する.さらにミニ2048 においてStochastic MuZero を簡略化した手法でエージェントを学習させ,その性能を最適方策との一致率で評価した.最後に最善手と最悪手の期待得点の差が大きい盤面を集中的に学習することがエージェントの学習に重要なことを示した.
論文抄録(英)
内容記述タイプ Other
内容記述 The single-player game 2048 is an interesting target for the evaluation of reinforcement learning methods. While one usually measures the average scores to show the learning efficiency of a method, it would be beneficial if one could additionally show the distance to an optimal policy. Toward this end, this paper presents mini2048, a small variant of 2048 with a 3x3 board. While mini2048 inherits interesting properties from the original 2048, we can strongly solve the game thanks to its smaller board size. We report the statistics of the game and the score achieved by the optimal strategies, including their changes along with a slight modification of transition dynamics. Moreover, we trained agents with a simplified version of Stochastic MuZero in mini2048 and evaluated its effectiveness by the rate of agreement with optimal strategies. Finally, we showed it is important for agents to intensively learn such a state that the difference in the expected return between the best and worst actions is limited.
書誌情報 ゲームプログラミングワークショップ2022論文集

巻 2022, p. 1-8, 発行日 2022-11-04
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 13:55:19.227979
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3