Item type |
SIG Technical Reports(1) |
公開日 |
2023-09-14 |
タイトル |
|
|
タイトル |
BoxPlotQA: 箱ひげ図による五数要約と比較性能を測るための視覚的質問応答 |
タイトル |
|
|
言語 |
en |
|
タイトル |
BoxPlotQA: Visual Question Answering for Measuring Five-Number Summary and Comparison Performance with Box Plot |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
京都産業大学情報理工学部 |
著者所属 |
|
|
|
京都産業大学情報理工学部 |
著者所属(英) |
|
|
|
en |
|
|
School of Engineering, Kyoto Sangyo University |
著者所属(英) |
|
|
|
en |
|
|
School of Engineering, Kyoto Sangyo University |
著者名 |
戸崎, 友輔
宮森, 恒
|
著者名(英) |
Yusuke, Tozaki
Hisashi, Miyamori
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,自然画像だけでなく,文書画像やチャート画像に対する視覚的質問応答(VQA)の研究が注目されている.特に,棒グラフなどの量や割合を視覚化するチャート画像に対する研究が数多くある.しかし,ヒストグラムや箱ひげ図のようなばらつきを視覚化するチャート画像に対してはこれまで注目されていない.そこで本稿では,箱ひげ図画像に対する VQA タスク BoxPlotQA を提案し,ベンチマーク用データセットを構築する.単純な視覚的特徴を持つ箱ひげ図を用いることで,箱ひげ図特有の値や幅などの視覚的特徴を正確に読み取る能力や,複数のデータセット間でそれらの特徴を比較する能力を測定できる点で,他のチャート画像の VQA とは異なる特徴をもつ.実験では,いくつかのベースラインモデルに対し,構築したデータセットを用いた訓練の有無による性能の違いや,実世界で観測されたデータに対する質問タイプ別での性能の違いについて検証する.本研究により,視覚言語モデルによるチャート画像の的確な読解能力の分析と改善を促進することが期待される. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recently, visual question and answer (VQA) research on document and chart images, as well as natural images, has attracted much attention. In particular, there have been many studies on chart images that visualize quantities or proportions, such as bar charts, pie charts, and line graphs. However, chart images that visualize data variability, such as histograms and box plots (box-and-whisker), have not received much attention. In this paper, we propose a VQA task BoxPlotQA for box plot images and construct a new benchmark dataset for the task. Box plot images differ from other chart image VQAs in that they allow us to measure the ability to accurately read visual features such as value, width, and symmetry, and to compare these features across multiple data sets. In our experiments, we will test the effect on performance of several baseline models with and without training on the BoxPlotQA dataset, as well as the performance of different question types on real-world observed data. This study is expected to facilitate the analysis and improvement of the ability of visual language models to accurately read chart images. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112482 |
書誌情報 |
研究報告データベースシステム(DBS)
巻 2023-DBS-177,
号 12,
p. 1-6,
発行日 2023-09-14
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-871X |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |