実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上

三笠,諒; 林,俊一郎; 椋木,大地; 星野,哲也; 片桐,孝洋

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上

https://ipsj.ixsq.nii.ac.jp/records/2007966

名前 / ファイル	ライセンス	アクション
IPSJ-HPC26203049.pdf (1.2 MB) 2028年3月9日からダウンロード可能です。	Copyright (c) 2026 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, HPC:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2026-03-09

タイトル

言語

タイトル

実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上

言語

jpn

キーワード

主題Scheme

Other

主題

性能評価とLLM活用技術

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

名古屋大学情報学部コンピュータ科学科

著者所属

名古屋大学情報学研究科

著者所属

名古屋大学情報基盤センター

著者所属

名古屋大学情報基盤センター

著者所属

名古屋大学情報基盤センター／名古屋大学情報基盤センター

著者名

三笠,諒
林,俊一郎
椋木,大地
星野,哲也
片桐,孝洋

論文抄録

内容記述タイプ

Other

内容記述

大規模言語モデル（LLM）はコード生成において高い能力を示すが，生成コードの実行時性能は保証されず，HPC分野において実行時性能を報酬としてLLMを訓練する試みはほとんど行われていない．本研究では，LLMが生成したコードをスーパーコンピュータ上で実行し，測定した実行時性能（GFLOPS）を報酬として直接フィードバックするオンライン強化学習手法を提案する．さらに，問題ごとに許容する最適化技法を段階的に変化させ，多様な観点からコード最適化を学習させるStaged Quality-Diversity（SQD）アルゴリズムを導入する．GPU学習クラスタとCPUベンチマーククラスタを接続した分散システムを構築し，Group Relative Policy Optimization（GRPO）によりQwen2.5 Coder 14Bを倍精度行列積タスクで訓練する．2つの実験を通じて，実行時性能フィードバックと段階的最適化を組み合わせた強化学習がLLMのHPCコード生成能力を改善しうることを示す．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10463942

書誌情報

研究報告ハイパフォーマンスコンピューティング（HPC）

巻 2026-HPC-203, 号 49, p. 1-10, 発行日 2026-03-09

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8841

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2026-02-25 05:54:06.256645

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

実機ベンチマーク報酬に基づくオンライン強化学習によるLLMのHPCコード生成能力向上

× 三笠,諒

× 林,俊一郎

× 椋木,大地

× 星野,哲也

× 片桐,孝洋

Versions

Share

Cite as

エクスポート