ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. ハイパフォーマンスコンピューティング(HPC)
  3. 2024
  4. 2024-HPC-193

遺伝的アルゴリズムを用いたMobileViTにおける量子化ビット幅割当て最適化

https://ipsj.ixsq.nii.ac.jp/records/233157
https://ipsj.ixsq.nii.ac.jp/records/233157
bb688c12-723a-4c5c-824c-4eba580837ea
名前 / ファイル ライセンス アクション
IPSJ-HPC24193015.pdf IPSJ-HPC24193015.pdf (540.8 kB)
 2026年3月11日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, HPC:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-03-11
タイトル
タイトル 遺伝的アルゴリズムを用いたMobileViTにおける量子化ビット幅割当て最適化
言語
言語 jpn
キーワード
主題Scheme Other
主題 最適化
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
慶應義塾大学理工学部
著者所属
慶應義塾大学理工学研究科
著者所属
慶應義塾大学理工学部
著者名 竹島, 颯

× 竹島, 颯

竹島, 颯

Search repository
杉本, 寛直

× 杉本, 寛直

杉本, 寛直

Search repository
近藤, 正章

× 近藤, 正章

近藤, 正章

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,Ttransformer ベースの大規模言語モデル(LLM)や生成系 AI の重要性が増している.LLM の推論実行には演算処理やメモリ容量などについて大規模な計算リソースを要するため,サーバなどの強力な計算機での実行が一般的である.一方,AI 処理をエッジデバイス上で行うエッジ AI の需要も拡大しており,相対的に非力な組み込みデバイス上で処理可能な軽量モデルの提案も多数行われている.モデルの軽量化を行う際に,量子化は有効なモデルの圧縮手法の 1 つである.量子化は重みや activation といったモデルのパラメータを小ビット幅の数値で表現する手法であり,メモリ使用量の節約や推論速度の向上が期待されるが,精度の低下を引き起こす場合もある.精度低下はビット幅が小さいほど大きくなりやすく,とりわけ 4bit 程度まで量子化した場合に顕著である.モデルの精度低下を抑えつつ量子化を行う方法の 1 つに混合精度(Mixed-precision)での量子化があり,モデルの層や層内のブロック単位で異なるビット幅を割当てる量子化手法である.適切なビット幅の割当てにより精度低下を防ぎつつ,大幅にモデルを圧縮するとが可能になるが,ビット幅の割当て方が層やブロックの数,割当て方のパターンに応じて爆発的に増加し,手動で最適な割当てを見つけるのは困難である.従来から,混合精度による量子化ビット幅の割当てやモデル構造の決定のため,遺伝的アルゴリズムや強化学習などの探索アルゴリズムを利用することも検討されており,CNN に関しては多くの先行研究が存在するが,Transformer ベースのモデルに関してはまだ先例が少ない.そこで,本研究では遺伝的アルゴリズムを用いて,Transformer を用いたコンピュータビジョンタスク向けの軽量なモデルの 1 つである MobileViT を対象とし,層内のブロック粒度での混合精度量子化のビット幅の割り当て最適化を検討する.評価の結果,4bit も交えた混合精度量子化のみにより,2pt 以下の精度低下で約 40% から 55% のサイズ削減に成功した.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10463942
書誌情報 研究報告ハイパフォーマンスコンピューティング(HPC)

巻 2024-HPC-193, 号 15, p. 1-7, 発行日 2024-03-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8841
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:11:30.467734
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3