@techreport{oai:ipsj.ixsq.nii.ac.jp:00217236, author = {劉, 世芾 and 高前田, 伸也}, issue = {16}, month = {Mar}, note = {強化学習は環境との相互作用の中で高い報酬を獲得するための方策を学習する枠組みである.エージェントが環境について知れば知るほど学習は有利である.そのため,複数のエージェントを用いた探索がしばしば行われる.しかし,エッジデバイスで集めた情報は必ずしもサーバーや他のデバイスに公開できるとは限らない.学習データのプライバシーを守りながら共同で学習する枠組みは連合学習と呼ばれ,特に教師あり学習の分野では盛んに研究されている.本研究では教師あり学習において通信効率などの面で優れていることが確認された,知識蒸留を用いた手法を強化学習に応用する.我々は環境モデルを用いた連合強化学習の蒸留手法を提案し,この手法が通信コストを 3 桁削減できることを実験によって示した.ところが,同時にこの手法はエピソードの利用効率がベースライン手法に比 べて良くないことも分かった.そこでパラメータ変化量を観察することでその原因を分析し改善を試みた.}, title = {連合強化学習における蒸留手法の検討}, year = {2022} }