@techreport{oai:ipsj.ixsq.nii.ac.jp:02001881, author = {川越,壮 and 平野,甫 and 岩村,雅一}, issue = {50}, month = {May}, note = {CLIPは,画像とテキストの特徴量を統合的に学習したVisio Language Modelであり,Zero-shot分類において高い汎用性を示す.一方で,詳細分類レベルの認識や専門ドメインでは,事前学習データの偏りにより性能が低下しやすい.本研究では,こうした少数データ環境下におけるCLIPのFew-shot Adaptationを目的とし,Large Language Model (LLM)によって生成された視覚的説明文を活用する手法を提案する.具体的には,各クラスに対してLLMから説明文を生成し,BLIP-2で導入されたQ-Formerを用いてテキスト特徴量を画像特徴量空間にマッピングすることで,CLIPが持つモダリティギャップを解消する.さらに,変換後の特徴量を用いてAdapterを学習することで,視覚と言語の統合的なFew-sho Adaptationを実現する.CUB-200-2011データセットを用いた実験では,既存手法であるLinear probeと比較して,特に1-shotおよび2-shot設定において顕著な性能向上を確認した.}, title = {LLM説明文とQ-Formerの活用によるCLIP Few-shot Adaptationの精度向上}, year = {2025} }