@techreport{oai:ipsj.ixsq.nii.ac.jp:00239459,
 author = {前羽, 利治 and 河野, 慎 and 松尾, 豊},
 issue = {4},
 month = {Sep},
 note = {Vision Transformer (ViT) は畳み込みニューラルネットワーク (CNN) に比べ,高いパフォーマンスを発揮するが,学習や推論にかかる計算コストが大きい.一方,CNN は軽量・低コストであるため,コンピュータビジョンタスクで広く使われている.このため,知識蒸留により,ViT の性能を CNN に転移することは有用であるが,異なる構造のモデル間の知識蒸留は既存の手法では効果が低いことが知られている.改善のため,Attention 機構を模した変換を導入することで最先端の性能を実現する手法が提案されているが,既存手法に比べて複雑な操作を必要とするため,再現や利活用が難しい.そこで本研究においては,ViT と CNN が持つ特徴に注目することで,異なる構造のモデル間の知識蒸留を行うための指針を示し,PyTorch ライブラリで実装可能な中間層の出力に 2 次元フーリエ変換を施した知識蒸留手法を提案する.実験を通じて,Attention 機構を模した変換を用いる手法に効果は劣るものの,それ以外の既存手法より効果が高く,エッジ機器で使われる MobileNet にも効果があることを示す.},
 title = {Vision Transformerから畳み込みニューラルネットワークへの知識蒸留手法の提案},
 year = {2024}
}