ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. ハイパフォーマンスコンピューティング(HPC)
  3. 2024
  4. 2024-HPC-193

経路最適化における部分最適解のフィードバックによるAIモデルの強化学習手法の検討

https://ipsj.ixsq.nii.ac.jp/records/233156
https://ipsj.ixsq.nii.ac.jp/records/233156
b4b17e89-d5d0-4c3e-b40b-853f589484a7
名前 / ファイル ライセンス アクション
IPSJ-HPC24193014.pdf IPSJ-HPC24193014.pdf (1.3 MB)
 2026年3月11日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, HPC:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-03-11
タイトル
タイトル 経路最適化における部分最適解のフィードバックによるAIモデルの強化学習手法の検討
言語
言語 jpn
キーワード
主題Scheme Other
主題 機械学習
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
慶應義塾大学理工学部
著者所属
慶應義塾大学理工学部/理化学研究所
著者名 齋藤, 楓

× 齋藤, 楓

齋藤, 楓

Search repository
近藤, 正章

× 近藤, 正章

近藤, 正章

Search repository
論文抄録
内容記述タイプ Other
内容記述 経路最適化問題は NP 困難な組合せ最適化問題との一種としてよく知られており,取り扱うノード数が大きくなるにつれ,計算量が爆発的に増加するため最適解を得ることが困難である.経路最適化問題には,巡回セールスマン問題(TSP),配送最適化問題(VRP),オリエンテーリング問題(OP)など様々な種類があり,これらの解法として近年では深層学習によるアプローチが増えてきており,精度の向上や,計算量の削減が期待されている.しかしこうしたアプローチは,汎化性能に課題があり,学習したものとはサイズの異なる問題に対し,精度が低下する.特に大きなサイズの問題に対しては大きく精度が下がってしまう.こうした問題を解決するため,本稿では,代表的な経路最適化問題の一つである TSP に焦点を当てて,深層学習モデルの強化学習を用いたファインチューニング手法を検討する.本稿で検討する手法は,近年大規模言語モデル(LLM)のファインチューニングで大きな成功を収めた Reinforcement Learning with Human Feedback (RLHF) のアイデアを取り入れる.RLHF は人間の価値基準を学習した報酬モデルを用いて,強化学習モデルの出力に人間の好みを反映させる手法である.本研究では,数理最適化ソルバーから得られた TSP の解を報酬モデルとして扱い,強化学習を用いたファインチューニング手法を提案する.評価の結果,通常のファインチューニングよりも汎化性能が向上し,特に200 ノードにおいて誤差率を約 0.3~0.4pt 改善することができた.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10463942
書誌情報 研究報告ハイパフォーマンスコンピューティング(HPC)

巻 2024-HPC-193, 号 14, p. 1-7, 発行日 2024-03-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8841
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:11:31.674095
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3