| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-03-01 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
日本の文化常識・日常生活知識理解のための視覚言語ベンチマークMECHA-Jaの構築 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
MECHA-Ja: Multimodal Everyday-life and Cultural Habits Assessment, a Japanese VQA Benchmark Dataset |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
LLM評価 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京科学大学/国立情報学研究所大規模言語モデル研究開発センター |
| 著者所属 |
|
|
|
愛知工業大学/国立情報学研究所大規模言語モデル研究開発センター |
| 著者所属 |
|
|
|
国立情報学研究所/国立情報学研究所大規模言語モデル研究開発センター |
| 著者所属 |
|
|
|
国立情報学研究所大規模言語モデル研究開発センター |
| 著者所属 |
|
|
|
愛知工業大学/理化学研究所 |
| 著者所属 |
|
|
|
東京科学大学/国立情報学研究所大規模言語モデル研究開発センター |
| 著者名 |
前田,航希
長谷川,騎平
栗田,修平
小田,悠介
徳久,良子
岡崎,直観
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,日本の日常生活文化を背景知識とする視覚言語ベンチマーク(Multimodal Everyday-life and Cultural Habits Assessment; MECHA-Ja)を新たに構築し,既存の視覚言語モデル(VLM)が日本特有の常識やしきたりをどの程度理解し,推論できるかを包括的に評価した結果を報告する.MECHA-Jaは日本国内で撮影された603枚の画像と1,821件の質問応答ペアで構成され,日本文化に根ざした知識推論を必要とするマルチモーダル課題を提示する.画像に映る事物の認識だけでなく,背景知識を用いた設問を含み,日本の生活文化を理解するために不可欠な無形知識を測定可能とした.実験では,日本語に対応する複数のVLMをMECHA-Jaを用いて比較評価した結果を報告し,既存研究の知見に照らして議論する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2025-NL-263,
号 28,
p. 1-7,
発行日 2025-03-01
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |