| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-05-08 |
| タイトル |
|
|
タイトル |
画像クラスタリングに基づくCLIP学習のためのincorrectペア生成法の提案 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
A Proposal for Generating Incorrect Pairs for the CLIP Learning based on Image Clustering |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション3(PRMU) |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
中京大学 |
| 著者所属 |
|
|
|
中京大学 |
| 著者所属 |
|
|
|
中京大学 |
| 著者所属 |
|
|
|
中京大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Chukyo University |
| 著者所属(英) |
|
|
|
en |
|
|
Chukyo University |
| 著者所属(英) |
|
|
|
en |
|
|
Chukyo University |
| 著者所属(英) |
|
|
|
en |
|
|
Chukyo University |
| 著者名 |
田上, 鈴奈
小林, 大起
秋月, 秀一
橋本, 学
|
| 著者名(英) |
Rina, Tagami
Hiroki, Kobayashi
Shuichi, Akizuki
Manabu, Hashimoto
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
CLIP の対照学習には,画像・テキスト間の関連性が高いペア (correct ペア) と,correct ペアの組み合わせを変えて生成された,画像・テキスト間の関連性が低いペア (incorrect ペア) が利用されている.提案手法では,学習性能の向上が可能な incorrect ペアのみを生成する手法を提案する.従来の CLIP は,学習データ内に類似画像が複数存在する場合,関連性の高いペアが incorrect ペアとして扱われ,学習に悪影響を及ぼすという問題がある.そこで,提案手法では,ViT と BERT を用いて correct ペアの画像特徴とテキスト特徴を抽出後,それぞれをクラスタリングし,画像特徴間のクラスタが異なる,類似度の低いペアの付与テキストを交換する.これにより,画像・テキスト間の関連性が低い incorrect ペアのみを作成可能である.Amazon review dataset を用いた実験では,従来の CLIPと比較して Rank@1 スコアが 13.0%,ランダムで incorrect ペアを削減した場合と比較して 6.0% 向上した. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We proposed a novel method for generating incorrect pairs to enhance learning performance in CLIP’s contrastive learning, addressing the bias in data quantity between correct and incorrect pairs. Vanilla CLIP methods that similar images are considered incorrect pairs, adversely affecting learning. Our approach extracts features of images and texts from correct pairs using ViT and BERT, clusters them, and then swaps texts of low-similarity pairs across different clusters. Experiments on the Amazon review dataset showed a 13.0% improvement in Rank@1 score over conventional CLIP and a 6.0% improvement over randomly reducing incorrect pairs. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2024-CVIM-238,
号 59,
p. 1-6,
発行日 2024-05-08
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |