WEKO3
アイテム
LLM説明文とQ-Formerの活用によるCLIP Few-shot Adaptationの精度向上
https://ipsj.ixsq.nii.ac.jp/records/2001881
https://ipsj.ixsq.nii.ac.jp/records/2001881bd3cab74-901e-486d-aa05-7d130cd5f886
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2027年5月8日からダウンロード可能です。
|
Copyright (c) 2025 by the Information Processing Society of Japan
|
|
| 非会員:¥0, IPSJ:学会員:¥0, CVIM:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2025-05-08 | |||||||||||
| タイトル | ||||||||||||
| 言語 | ja | |||||||||||
| タイトル | LLM説明文とQ-Formerの活用によるCLIP Few-shot Adaptationの精度向上 | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | CVIM | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 大阪公立大学大学院情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 大阪公立大学大学院情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 大阪公立大学大学院情報学研究科 | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| Graduate School of Informatics, Osaka Metropolitan University | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| Graduate School of Informatics, Osaka Metropolitan University | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| Graduate School of Informatics, Osaka Metropolitan University | ||||||||||||
| 著者名 |
川越,壮
× 川越,壮
× 平野,甫
× 岩村,雅一
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | CLIPは,画像とテキストの特徴量を統合的に学習したVisio Language Modelであり,Zero-shot分類において高い汎用性を示す.一方で,詳細分類レベルの認識や専門ドメインでは,事前学習データの偏りにより性能が低下しやすい.本研究では,こうした少数データ環境下におけるCLIPのFew-shot Adaptationを目的とし,Large Language Model (LLM)によって生成された視覚的説明文を活用する手法を提案する.具体的には,各クラスに対してLLMから説明文を生成し,BLIP-2で導入されたQ-Formerを用いてテキスト特徴量を画像特徴量空間にマッピングすることで,CLIPが持つモダリティギャップを解消する.さらに,変換後の特徴量を用いてAdapterを学習することで,視覚と言語の統合的なFew-sho Adaptationを実現する.CUB-200-2011データセットを用いた実験では,既存手法であるLinear probeと比較して,特に1-shotおよび2-shot設定において顕著な性能向上を確認した. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AA11131797 | |||||||||||
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM) 巻 2025-CVIM-242, 号 50, p. 1-8, 発行日 2025-05-08 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8701 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||