WEKO3
アイテム
遺伝的アルゴリズムを用いたMobileViTにおける量子化ビット幅割当て最適化
https://ipsj.ixsq.nii.ac.jp/records/233157
https://ipsj.ixsq.nii.ac.jp/records/233157bb688c12-723a-4c5c-824c-4eba580837ea
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年3月11日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, HPC:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-11 | |||||||||||
タイトル | ||||||||||||
タイトル | 遺伝的アルゴリズムを用いたMobileViTにおける量子化ビット幅割当て最適化 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 最適化 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
慶應義塾大学理工学部 | ||||||||||||
著者所属 | ||||||||||||
慶應義塾大学理工学研究科 | ||||||||||||
著者所属 | ||||||||||||
慶應義塾大学理工学部 | ||||||||||||
著者名 |
竹島, 颯
× 竹島, 颯
× 杉本, 寛直
× 近藤, 正章
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 近年,Ttransformer ベースの大規模言語モデル(LLM)や生成系 AI の重要性が増している.LLM の推論実行には演算処理やメモリ容量などについて大規模な計算リソースを要するため,サーバなどの強力な計算機での実行が一般的である.一方,AI 処理をエッジデバイス上で行うエッジ AI の需要も拡大しており,相対的に非力な組み込みデバイス上で処理可能な軽量モデルの提案も多数行われている.モデルの軽量化を行う際に,量子化は有効なモデルの圧縮手法の 1 つである.量子化は重みや activation といったモデルのパラメータを小ビット幅の数値で表現する手法であり,メモリ使用量の節約や推論速度の向上が期待されるが,精度の低下を引き起こす場合もある.精度低下はビット幅が小さいほど大きくなりやすく,とりわけ 4bit 程度まで量子化した場合に顕著である.モデルの精度低下を抑えつつ量子化を行う方法の 1 つに混合精度(Mixed-precision)での量子化があり,モデルの層や層内のブロック単位で異なるビット幅を割当てる量子化手法である.適切なビット幅の割当てにより精度低下を防ぎつつ,大幅にモデルを圧縮するとが可能になるが,ビット幅の割当て方が層やブロックの数,割当て方のパターンに応じて爆発的に増加し,手動で最適な割当てを見つけるのは困難である.従来から,混合精度による量子化ビット幅の割当てやモデル構造の決定のため,遺伝的アルゴリズムや強化学習などの探索アルゴリズムを利用することも検討されており,CNN に関しては多くの先行研究が存在するが,Transformer ベースのモデルに関してはまだ先例が少ない.そこで,本研究では遺伝的アルゴリズムを用いて,Transformer を用いたコンピュータビジョンタスク向けの軽量なモデルの 1 つである MobileViT を対象とし,層内のブロック粒度での混合精度量子化のビット幅の割り当て最適化を検討する.評価の結果,4bit も交えた混合精度量子化のみにより,2pt 以下の精度低下で約 40% から 55% のサイズ削減に成功した. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10463942 | |||||||||||
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2024-HPC-193, 号 15, p. 1-7, 発行日 2024-03-11 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8841 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |