WEKO3
アイテム
Vision & Language Modelにおけるユニモーダルの特徴間のアラインメントによるVQAの学習速度の改善
https://ipsj.ixsq.nii.ac.jp/records/230162
https://ipsj.ixsq.nii.ac.jp/records/2301626c1ae85f-2846-4d4b-85d2-4bcc55a68da1
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2023 by the Information Processing Society of Japan
|
Item type | National Convention(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-02-16 | |||||||||||||
タイトル | ||||||||||||||
タイトル | Vision & Language Modelにおけるユニモーダルの特徴間のアラインメントによるVQAの学習速度の改善 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 人工知能と認知科学 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
資源タイプ | conference paper | |||||||||||||
著者所属 | ||||||||||||||
神戸大 | ||||||||||||||
著者所属 | ||||||||||||||
神戸大 | ||||||||||||||
著者所属 | ||||||||||||||
神戸大 | ||||||||||||||
著者所属 | ||||||||||||||
神戸大 | ||||||||||||||
著者名 |
高平, 凜
× 高平, 凜
× 楊, 陽
× 小松, 瑞果
× 大川, 剛直
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 近年、画像とテキストのようなマルチモーダルデータを用いた深層学習技術が注目されており、例えば、物体認識やVQAのタスクに対しては、Vision&Languageモデルなどが提案されている。このモデルは、画像と関連テキストをデータとし、これらの特徴量をCross Attentionによって融合させることで、画像のみを扱う一般的なモデルでは得られない、複雑な情報を抽出することができる。 しかし、個々のモダリティデータはそれぞれ異なる統計的特性を持つため、特徴量を融合させるための学習に時間がかかるという問題点がある。そこで本研究では、融合する前に画像特徴と言語情報の関連度を上げておくことで、学習の収束を早めることを試みる。さらに提案手法の放牧管理作業への活用にも触れる。 | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AN00349328 | |||||||||||||
書誌情報 |
第85回全国大会講演論文集 巻 2023, 号 1, p. 753-754, 発行日 2023-02-16 |
|||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |