@techreport{oai:ipsj.ixsq.nii.ac.jp:00216463,
 author = {小國, 祥寛 and 宮下, 裕貴 and 菅原, 俊治},
 issue = {10},
 month = {Feb},
 note = {本稿では，異なる能力と役割を持つ複数のエージェントが，決められた順序で作業することで完了するタスクにおいて，自分の作業の効率化の学習と自分の前後に作業するエージェントとの連携行動の学習を両立させる手法を提案する．近年，深層強化学習の研究が活発に行われているが，エージェント間の協調行動の学習については未だ十分とは言えない．特にエージェントが独立した深層ネットワークを持つ分散的なマルチエージェント強化学習 (MADRL) では，個々の作業に与える報酬の体系が協調行動に与える影響については不明な部分も多い．本稿で対象とする順序付きの作業では，特に初めのエージェントからは，かなり遅れてタスクが完了し，すでに他のタスクの作業中となることも多い．そのため，たとえば，自分の担当部分の完了時に報酬を与えるとタスクの完了という本来の目的と異なった報酬体系となり，自己中心の作業に特化し，他の行動を考慮しなくなる．一方で，全体の作業が終わったときにのみ報酬を与えると，自分の作業の学習が進まないばかりではなく，その後のエージェントの学習機会も失う．このような課題に対し，本提案では，報酬を 2 分割し，それを学習の遂行とともに変化させ，自分の作業の効率と協調行動をともに実現し，最終的には本来の目的と合致するように関連するすべての作業が完了したときにのみ報酬を与えるものとする．実験により，報酬比と収集した行動を比較し，提案手法が自己の作業と協調・連携行動のバランスのとれた行動学習を実現することを示す．},
 title = {時間制限付き半順序作業における協調行動学習のための漸進的報酬設計の提案},
 year = {2022}
}