Item type |
SIG Technical Reports(1) |
公開日 |
2024-12-05 |
タイトル |
|
|
タイトル |
大規模視覚言語モデルによる芸術作品の多言語説明生成 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
特別セッション:分野横断 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
東京大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者名 |
尾崎, 慎太郎
林, 和樹
坂井, 優介
上垣外, 英剛
林, 克彦
渡辺, 太郎
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
英語を対象とした大規模視覚言語モデル (Large-scale Vision Language Models,LVLMs) の性能向上に伴い,多言語をも対象とした発展が期待されている.しかし,LVLMs を構成する視覚エンコーダの事前学習や,大規模言語モデル (Large Language Models,LLMs) と視覚エンコーダの統合学習は,主に英語の学習データを用いて行われており,英語以外の言語で説明を生成する際に,LVLMs が潜在能力を十分に発揮できているかどうかは不明である.また,機械翻訳を利用してデータセットを作成する多言語 QA ベンチマークには,文化的な違いや偏りを的確に捉えられておらず,評価タスクとして利用するには課題が残る.これらの課題を解決するために,本研究では機械翻訳に頼らない多言語の拡張データセットを作成した.そして,意味合いや国特有の言い回しを考慮したこのデータセットを用いて,LVLMs の生成説明能力を評価した.さらに本研究では,資源が豊富な英語での指示学習が他の言語での性能を向上させるかどうかを検証した.その結果,LVLMs は英語以外の言語では,英語に比べて性能が低下することがわかった.さらに,LVLMs は英語のデータから学習した知識を効果的に利用する上での課題が存在することを確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-154,
号 28,
p. 1-18,
発行日 2024-12-05
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |