@techreport{oai:ipsj.ixsq.nii.ac.jp:00234190, author = {田上, 鈴奈 and 小林, 大起 and 秋月, 秀一 and 橋本, 学 and Rina, Tagami and Hiroki, Kobayashi and Shuichi, Akizuki and Manabu, Hashimoto}, issue = {59}, month = {May}, note = {CLIP の対照学習には,画像・テキスト間の関連性が高いペア (correct ペア) と,correct ペアの組み合わせを変えて生成された,画像・テキスト間の関連性が低いペア (incorrect ペア) が利用されている.提案手法では,学習性能の向上が可能な incorrect ペアのみを生成する手法を提案する.従来の CLIP は,学習データ内に類似画像が複数存在する場合,関連性の高いペアが incorrect ペアとして扱われ,学習に悪影響を及ぼすという問題がある.そこで,提案手法では,ViT と BERT を用いて correct ペアの画像特徴とテキスト特徴を抽出後,それぞれをクラスタリングし,画像特徴間のクラスタが異なる,類似度の低いペアの付与テキストを交換する.これにより,画像・テキスト間の関連性が低い incorrect ペアのみを作成可能である.Amazon review dataset を用いた実験では,従来の CLIPと比較して Rank@1 スコアが 13.0%,ランダムで incorrect ペアを削減した場合と比較して 6.0% 向上した., We proposed a novel method for generating incorrect pairs to enhance learning performance in CLIP’s contrastive learning, addressing the bias in data quantity between correct and incorrect pairs. Vanilla CLIP methods that similar images are considered incorrect pairs, adversely affecting learning. Our approach extracts features of images and texts from correct pairs using ViT and BERT, clusters them, and then swaps texts of low-similarity pairs across different clusters. Experiments on the Amazon review dataset showed a 13.0% improvement in Rank@1 score over conventional CLIP and a 6.0% improvement over randomly reducing incorrect pairs.}, title = {画像クラスタリングに基づくCLIP学習のためのincorrectペア生成法の提案}, year = {2024} }