WEKO3
アイテム
集合型視覚言語埋め込み
https://ipsj.ixsq.nii.ac.jp/records/232871
https://ipsj.ixsq.nii.ac.jp/records/2328718fac3d41-992a-415f-be2c-6e7ca7ab8e5e
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2026年3月3日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-03-03 | |||||||||
| タイトル | ||||||||||
| タイトル | 集合型視覚言語埋め込み | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | マルチモーダル | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
| 資源タイプ | technical report | |||||||||
| 著者所属 | ||||||||||
| 奈良先端科学技術大学院大学 | ||||||||||
| 著者所属 | ||||||||||
| 奈良先端科学技術大学院大学 | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Nara Institute of Science and Technology | ||||||||||
| 著者所属(英) | ||||||||||
| en | ||||||||||
| Nara Institute of Science and Technology | ||||||||||
| 著者名 |
品川, 政太朗
× 品川, 政太朗
× 中村, 哲
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | 画像と言語を共有の埋め込み空間に射影する視覚言語モデルは,両モダリティ間の検索や生成において幅広く利用されている.しかし,学習済みの視覚言語モデルは,言語側のエンコーダの入力トークン長が限定的であり,長い文に対しては扱いにくいという問題がある.本研究では,大域的な一つの埋め込み同士で画像と言語間の類似度を計算する従来の枠組みを見直し,画像と自然言語の文をそれぞれ複数の埋め込みによる集合で表現して類似度を計算する方法を採用することで,上記の問題の回避を試みる.両モダリティの埋め込み集合間の類似度計算には最適輸送とプーリングによる方法を提案する.本手法は,学習済みの視覚言語モデルに追加の学習を行わずに適用可能である.実験では,代表的な視覚言語モデルである CLIP を対象とし,画像―言語間の検索における検証結果を報告する. | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN10115061 | |||||||||
| 書誌情報 |
研究報告自然言語処理(NL) 巻 2024-NL-259, 号 8, p. 1-5, 発行日 2024-03-03 |
|||||||||
| ISSN | ||||||||||
| 収録物識別子タイプ | ISSN | |||||||||
| 収録物識別子 | 2188-8779 | |||||||||
| Notice | ||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||