@techreport{oai:ipsj.ixsq.nii.ac.jp:00225535,
 author = {額見, 怜央 and 安戸, 僚汰 and 高木, 直史},
 issue = {28},
 month = {Mar},
 note = {近年,深層強化学習を用いた組合せ最適化問題に関する探究的なアプローチにより,新たなアルゴリズムの発見が研究されている.本研究では多くの組合せ最適化問題を等価に統一した形で変換でき,変換前の問題の種類に関わらず無制約で目的関数の最小化を図ることが特徴となる二次無制約二値最適化問題 (Quadratic Unconstrained Binary Optimization, QUBO) に変換された組合せ最適化問題における深層強化学習の活用を行うことを提案する.提案手法は既存のΔベースのフリップポリシーを深層強化学習に置き換える.環境とのインタラクションにより自ら試行錯誤し,取るべき行動を選択するための方策を自分で学んでいくエージェントの学習により,本問題を深層強化学習の枠組みにおいて長期的な報酬を最大化し,QUBO を効率的に解く AI によるアルゴリズム設計手法を発見できるかどうかの調査と評価を行った.結果として学習時の QUBO 行列サイズに制限されることなく,学習済みモデルは greedy に行動したときに到達した局所的最適解を数% 向上した精度で最適化を図ることができた.},
 title = {深層強化学習を用いた発見的二次無制約二値最適化ソルバーの学習},
 year = {2023}
}