WEKO3
アイテム
経路最適化における部分最適解のフィードバックによるAIモデルの強化学習手法の検討
https://ipsj.ixsq.nii.ac.jp/records/233156
https://ipsj.ixsq.nii.ac.jp/records/233156b4b17e89-d5d0-4c3e-b40b-853f589484a7
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2026年3月11日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, HPC:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-03-11 | |||||||||
| タイトル | ||||||||||
| タイトル | 経路最適化における部分最適解のフィードバックによるAIモデルの強化学習手法の検討 | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | 機械学習 | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
| 資源タイプ | technical report | |||||||||
| 著者所属 | ||||||||||
| 慶應義塾大学理工学部 | ||||||||||
| 著者所属 | ||||||||||
| 慶應義塾大学理工学部/理化学研究所 | ||||||||||
| 著者名 |
齋藤, 楓
× 齋藤, 楓
× 近藤, 正章
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 経路最適化問題は NP 困難な組合せ最適化問題との一種としてよく知られており,取り扱うノード数が大きくなるにつれ,計算量が爆発的に増加するため最適解を得ることが困難である.経路最適化問題には,巡回セールスマン問題(TSP),配送最適化問題(VRP),オリエンテーリング問題(OP)など様々な種類があり,これらの解法として近年では深層学習によるアプローチが増えてきており,精度の向上や,計算量の削減が期待されている.しかしこうしたアプローチは,汎化性能に課題があり,学習したものとはサイズの異なる問題に対し,精度が低下する.特に大きなサイズの問題に対しては大きく精度が下がってしまう.こうした問題を解決するため,本稿では,代表的な経路最適化問題の一つである TSP に焦点を当てて,深層学習モデルの強化学習を用いたファインチューニング手法を検討する.本稿で検討する手法は,近年大規模言語モデル(LLM)のファインチューニングで大きな成功を収めた Reinforcement Learning with Human Feedback (RLHF) のアイデアを取り入れる.RLHF は人間の価値基準を学習した報酬モデルを用いて,強化学習モデルの出力に人間の好みを反映させる手法である.本研究では,数理最適化ソルバーから得られた TSP の解を報酬モデルとして扱い,強化学習を用いたファインチューニング手法を提案する.評価の結果,通常のファインチューニングよりも汎化性能が向上し,特に200 ノードにおいて誤差率を約 0.3~0.4pt 改善することができた. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN10463942 | |||||||||
| 書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2024-HPC-193, 号 14, p. 1-7, 発行日 2024-03-11 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 2188-8841 | |||||||||
| Notice | ||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||