@techreport{oai:ipsj.ixsq.nii.ac.jp:00241603,
 author = {尾崎, 慎太郎 and 林, 和樹 and 坂井, 優介 and 上垣外, 英剛 and 林, 克彦 and 渡辺, 太郎},
 issue = {28},
 month = {Dec},
 note = {英語を対象とした大規模視覚言語モデル (Large-scale Vision Language Models,LVLMs) の性能向上に伴い,多言語をも対象とした発展が期待されている.しかし,LVLMs を構成する視覚エンコーダの事前学習や,大規模言語モデル (Large Language Models,LLMs) と視覚エンコーダの統合学習は,主に英語の学習データを用いて行われており,英語以外の言語で説明を生成する際に,LVLMs が潜在能力を十分に発揮できているかどうかは不明である.また,機械翻訳を利用してデータセットを作成する多言語 QA ベンチマークには,文化的な違いや偏りを的確に捉えられておらず,評価タスクとして利用するには課題が残る.これらの課題を解決するために,本研究では機械翻訳に頼らない多言語の拡張データセットを作成した.そして,意味合いや国特有の言い回しを考慮したこのデータセットを用いて,LVLMs の生成説明能力を評価した.さらに本研究では,資源が豊富な英語での指示学習が他の言語での性能を向上させるかどうかを検証した.その結果,LVLMs は英語以外の言語では,英語に比べて性能が低下することがわかった.さらに,LVLMs は英語のデータから学習した知識を効果的に利用する上での課題が存在することを確認した.},
 title = {大規模視覚言語モデルによる芸術作品の多言語説明生成},
 year = {2024}
}