ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング


インデックスリンク

インデックスツリー

  • RootNode

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. ゲーム情報学(GI)
  3. 2022
  4. 2022-GI-47

方策勾配法による協力型不完全情報ゲームHanabiの戦略学習

https://ipsj.ixsq.nii.ac.jp/records/217520
https://ipsj.ixsq.nii.ac.jp/records/217520
512c4f35-791a-4a2d-a95a-844b18fbcc50
名前 / ファイル ライセンス アクション
IPSJ-GI22047017.pdf IPSJ-GI22047017.pdf (1.2 MB)
Copyright (c) 2022 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2022-03-11
タイトル
タイトル 方策勾配法による協力型不完全情報ゲームHanabiの戦略学習
タイトル
言語 en
タイトル Reinforcement Learning of cooperative incomplete information game, Hanabi by policy gradient method
言語
言語 jpn
キーワード
主題Scheme Other
主題 強化学習
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
現在,東京大学大学院
著者所属
現在,東京大学大学院
著者所属(英)
en
Presently with The Uniersity of Tokyo Graduate School
著者所属(英)
en
Presently with The Uniersity of Tokyo Graduate School
著者名 比企野, 純一

× 比企野, 純一

比企野, 純一

Search repository
鶴岡, 慶雅

× 鶴岡, 慶雅

鶴岡, 慶雅

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,AI に関する研究分野では複雑な環境を主な対象として研究が進み,その中でもマルチエージェントシステムを対象とする強化学習分野は最近注目されている.交通システムや経済状況,選挙投票など様々な状況がマルチエージェントの相互作用によって形成されており,これらの問題の解決方法の一端を強化学習によって担う事を期待されてマルチエージェント強化学習の研究が推し進められている.マルチエージェント強化学習の中でも協力型マルチエージェント強化学習のベンチマークとして最近整備されているボードゲームが不完全情報ゲーム Hanabi である.Hanabi の研究では一般的に部分観測かつマルチエージェントでありサンプル効率が悪いことを理由として,通常の設定のオンポリシー手法では学習がうまくいかず,一般的にはオフポリシー手法が用いられてきたが,近年設定を変更することによりオンポリシー手法においてもサンプル効率が落ちずに同程度の結果を残す研究も現れた.ここで重要な部分がパラメータ調整によって学習の効率を向上させたことである.そこで本研究は協力型不完全情報ゲーム Hanabi に対してさらに詳しく学習の鍵となっている設定を分析し,確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 In recent years, research in the field of AI has focused on complex environments, and the field of reinforcement learning for multi-agent systems has recently attracted much attention. Various situations, such as traffic systems, economic situations, and election voting, are formed by the interaction of multiple agents, and research on multi-agent reinforcement learning is being promoted with the expectation that reinforcement learning will play a part in solving these problems. A board game called Hanabi, recently developed as a benchmark for cooperative multi-agent reinforcement learning, is an imperfect information game. In Hanabi's research, on-policy methods in the usual setting do not work well due to the low sample efficiency of partial observations and multiple agents, and off-policy methods have generally been used.However, in recent years, some studies have shown that on-policy methods can achieve the same level of results without losing sample efficiency by changing the settings. The important part here is that the learning efficiency is improved by adjusting the parameters. In this study, we analyzed and confirmed the key learning settings for Hanabi, a cooperative imperfect information game, in more detail.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11362144
書誌情報 研究報告ゲーム情報学(GI)

巻 2022-GI-47, 号 17, p. 1-8, 発行日 2022-03-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8736
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 15:28:01.948552
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3