WEKO3
アイテム
Self-Playを用いた深層強化学習におけるスコア分布予測型モデルの提案
https://ipsj.ixsq.nii.ac.jp/records/232917
https://ipsj.ixsq.nii.ac.jp/records/2329170d56adb4-16c7-49aa-b558-e02a4f79a344
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年3月1日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, GI:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-01 | |||||||||||
タイトル | ||||||||||||
タイトル | Self-Playを用いた深層強化学習におけるスコア分布予測型モデルの提案 | |||||||||||
タイトル | ||||||||||||
言語 | en | |||||||||||
タイトル | A Proposal of Score Distribution Predictive Model in Self-Play Deep Reinforcement Learning | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
北海道大学 | ||||||||||||
著者所属 | ||||||||||||
北海道大学 | ||||||||||||
著者所属 | ||||||||||||
北海道大学 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
The University of Hokkaido | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
The University of Hokkaido | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
The University of Hokkaido | ||||||||||||
著者名 |
神子島, 一弥
× 神子島, 一弥
× 坂地, 泰紀
× 野田, 五十樹
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 本稿ではゲーム AI で用いられる Self-Play による深層強化学習において,スコアの確率分布を予測するモデルを提案する.提案モデルでは,一般に用いられているスコアの期待値の代わりに,スコアの確率分布を求める.それを直接用いることによって,スコア学習における性能低下問題を解決する.既存モデルと比較した評価実験により,性能低下問題が解決されることが分かった.更にスコアに対してより精密な操作を可能とする結果も得られた. | |||||||||||
論文抄録(英) | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | We propose a model for predicting the probability distribution of score in Self-Play deep reinforcement learning, which is used in game AI. In the proposed model, the probability distribution of score is obtained instead of expected value of score that is commonly used. By using it directly, the performance degradation problem in score learning is solved. Evaluation experiments comparing the proposed model with existing models show that the performance degradation problem is solved. Furthermore, the proposed model allowed more precise manipulation of score. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AA11362144 | |||||||||||
書誌情報 |
研究報告ゲーム情報学(GI) 巻 2024-GI-51, 号 29, p. 1-8, 発行日 2024-03-01 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8736 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |