@techreport{oai:ipsj.ixsq.nii.ac.jp:02007966,
 author = {三笠,諒 and 林,俊一郎 and 椋木,大地 and 星野,哲也 and 片桐,孝洋},
 issue = {49},
 month = {Mar},
 note = {大規模言語モデル（LLM）はコード生成において高い能力を示すが，生成コードの実行時性能は保証されず，HPC分野において実行時性能を報酬としてLLMを訓練する試みはほとんど行われていない．本研究では，LLMが生成したコードをスーパーコンピュータ上で実行し，測定した実行時性能（GFLOPS）を報酬として直接フィードバックするオンライン強化学習手法を提案する．さらに，問題ごとに許容する最適化技法を段階的に変化させ，多様な観点からコード最適化を学習させるStaged Quality-Diversity（SQD）アルゴリズムを導入する．GPU学習クラスタとCPUベンチマーククラスタを接続した分散システムを構築し，Group Relative Policy Optimization（GRPO）によりQwen2.5 Coder 14Bを倍精度行列積タスクで訓練する．2つの実験を通じて，実行時性能フィードバックと段階的最適化を組み合わせた強化学習がLLMのHPCコード生成能力を改善しうることを示す．},
 title = {実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上},
 year = {2026}
}