@techreport{oai:ipsj.ixsq.nii.ac.jp:00232872, author = {白井, 尚登 and 上垣外, 英剛 and 渡辺, 太郎}, issue = {9}, month = {Mar}, note = {視覚と言語の情報を大規模に学習した Vision and Language (V&L) モデルが次々に提案され,マルチモーダルタスクで成功を収めている.一方,言語モデルを拡張した V&L モデルは画像情報も追加学習することで本来の言語情報を忘却する可能性がある.そのため,本研究では事前学習済みの言語モデルと V&L モデルを対象に生成タスクの精度比較を行い,言語情報の忘却の有無を調査した.また,画像情報の追加学習によって事前学習時にエンコーダで獲得した言語情報に注目し,どの層の言語情報が生成タスクに寄与するかを定量化した.その結果,画像情報も学習することは文章生成の精度の低下に繋がる傾向が明らかとなった.そして,V&L モデルは言語モデルからの重みの引き継ぎによって生成タスクを処理する層の類似性が確認された.さらに,エンコーダの全層の情報を均等に利用しながら処理することが示唆された.}, title = {Scalar Mixing Weightsを用いた生成タスクにおける視覚と言語の情報を事前学習したモデルの分析}, year = {2024} }