@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00230213, author = {久保田, 英豊 and 長名, 優子}, book = {第85回全国大会講演論文集}, issue = {1}, month = {Feb}, note = {本研究では、畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用を提案する。Profit Sharingにおける行動価値を学習する場合には、Deep Q NetworkにおけるExperience Replayをそのまま利用することはできない。Profit Sharingにおける行動価値を学習する際の誤差関数では報酬分配量が教師信号として用いられるため、メモリに観測、行動、報酬分配量の3つを蓄積しておくこととする。こうすることで、メモリに蓄積したデータからランダムにとり出してミニバッチを生成することが可能となり、学習の際に何度もデータを利用することが可能になる。}, pages = {855--856}, publisher = {情報処理学会}, title = {畳み込みニューラルネットワークを用いたProfit SharingにおけるExperience Replayの利用}, volume = {2023}, year = {2023} }