@techreport{oai:ipsj.ixsq.nii.ac.jp:02007966, author = {三笠,諒 and 林,俊一郎 and 椋木,大地 and 星野,哲也 and 片桐,孝洋}, issue = {49}, month = {Mar}, note = {大規模言語モデル(LLM)はコード生成において高い能力を示すが,生成コードの実行時性能は保証されず,HPC分野において実行時性能を報酬としてLLMを訓練する試みはほとんど行われていない.本研究では,LLMが生成したコードをスーパーコンピュータ上で実行し,測定した実行時性能(GFLOPS)を報酬として直接フィードバックするオンライン強化学習手法を提案する.さらに,問題ごとに許容する最適化技法を段階的に変化させ,多様な観点からコード最適化を学習させるStaged Quality-Diversity(SQD)アルゴリズムを導入する.GPU学習クラスタとCPUベンチマーククラスタを接続した分散システムを構築し,Group Relative Policy Optimization(GRPO)によりQwen2.5 Coder 14Bを倍精度行列積タスクで訓練する.2つの実験を通じて,実行時性能フィードバックと段階的最適化を組み合わせた強化学習がLLMのHPCコード生成能力を改善しうることを示す.}, title = {実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上}, year = {2026} }