Item type |
Symposium(1) |
公開日 |
2023-11-10 |
タイトル |
|
|
タイトル |
未知の場を短時間で学習するドミニオンAI |
タイトル |
|
|
言語 |
en |
|
タイトル |
Dominion AI to learn unknown places in a short time |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
不完全情報ゲーム |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ドミニオン |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
深層強化学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
類似性確認システム |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
LDM |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
松江工業高等専門学校 |
著者所属 |
|
|
|
松江工業高等専門学校 |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Technology, Matsue College |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Technology, Matsue College |
著者名 |
田中, 開士
橋本, 剛
|
著者名(英) |
Tanaka, Kaito
Hashimoto, Tsuyoshi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,完全情報ゲームや一部の不完全情報ゲームでは人間を超えたが,多くの複雑な不完全情報ゲームでは強い AI は存在しておらず研究が盛んである.複雑な不完全情報ゲームの一つであるドミニオンはターン内での逐次選択が多く深層強化学習に向いている.その一方,ゲームごとに別種のカードの組み合わせを用いるため全ての場を事前に学習することは難しい.そこで,未知の場を学習する際は既存の学習した場の中から類似性の高い場の学習モデルを用いることで学習時間の短縮が可能なのではないかと考えた.既存の学習モデルをスタートモデルとして利用するため,変更するカードは効果のみを変更することにより学習モデルにあたかもこれまでと同じ場を学習しているかのように錯覚させる Learning by Deceive Method(LDM)を提案した.LDM を用いた実験により大幅な学習時間短縮が確認できた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In recent years, AI has surpassed humans in perfect information games and some imperfect information games, but there is no strong AI for many complex imperfect information games, and research is active in this area. Dominion, one of the complex incomplete information games, is well suited for deep reinforcement learning due to the large number of sequential selections within a turn. On the other hand, it is difficult to learn all fields in advance because each game uses a different combination of cards. Therefore, we considered that it would be possible to shorten the learning time by using the learning model of a field with high similarity among the existing learned fields when learning an unknown field. We proposed the Learning by Deceive Method (LDM), which uses an existing learning model as a starting model and changes only the effect of the cards to make the learning model think that it is learning the same place as before. Experiments using LDM showed a significant reduction in learning time. |
書誌情報 |
ゲームプログラミングワークショップ2023論文集
巻 2023,
p. 18-24,
発行日 2023-11-10
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |