| Item type |
SIG Technical Reports(1) |
| 公開日 |
2026-03-09 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
性能評価とLLM活用技術 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
名古屋大学情報学部コンピュータ科学科 |
| 著者所属 |
|
|
|
名古屋大学情報学研究科 |
| 著者所属 |
|
|
|
名古屋大学情報基盤センター |
| 著者所属 |
|
|
|
名古屋大学情報基盤センター |
| 著者所属 |
|
|
|
名古屋大学情報基盤センター/名古屋大学情報基盤センター |
| 著者名 |
三笠,諒
林,俊一郎
椋木,大地
星野,哲也
片桐,孝洋
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模言語モデル(LLM)はコード生成において高い能力を示すが,生成コードの実行時性能は保証されず,HPC分野において実行時性能を報酬としてLLMを訓練する試みはほとんど行われていない.本研究では,LLMが生成したコードをスーパーコンピュータ上で実行し,測定した実行時性能(GFLOPS)を報酬として直接フィードバックするオンライン強化学習手法を提案する.さらに,問題ごとに許容する最適化技法を段階的に変化させ,多様な観点からコード最適化を学習させるStaged Quality-Diversity(SQD)アルゴリズムを導入する.GPU学習クラスタとCPUベンチマーククラスタを接続した分散システムを構築し,Group Relative Policy Optimization(GRPO)によりQwen2.5 Coder 14Bを倍精度行列積タスクで訓練する.2つの実験を通じて,実行時性能フィードバックと段階的最適化を組み合わせた強化学習がLLMのHPCコード生成能力を改善しうることを示す. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10463942 |
| 書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC)
巻 2026-HPC-203,
号 49,
p. 1-10,
発行日 2026-03-09
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8841 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |