| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-09-14 |
| タイトル |
|
|
タイトル |
視覚言語モデルに関する順序数の的確な把握と活用能力の調査 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Probing the ability to accurately understand and utilize the ordinal numbers by visual language models |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
京都産業大学情報理工学部 |
| 著者所属 |
|
|
|
京都産業大学情報理工学部 |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Information Science and Engineering, Kyoto Sangyo University |
| 著者所属(英) |
|
|
|
en |
|
|
Faculty of Information Science and Engineering, Kyoto Sangyo University |
| 著者名 |
増田, 琉斗
宮森, 恒
|
| 著者名(英) |
Ryuto, Masuda
Hisashi, Miyamori
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,視覚言語モデルが,順序数の概念を的確に把握し活用する能力をどの程度有するのかについて調査する.Transformer ベースの大規模事前学習モデルは,四則演算といった単純な算術問題等のタスクにおいて高い正答率を示しているが,モデルが数の概念をどのように捉え,活用しているのかについては不明な点も多い.本研究では,数の概念の一つとして,順序数に焦点をあて,Transformer ベースの視覚言語モデルが,順序数の概念をどの程度把握し活用する能力をもつのかについて調査する.具体的には,順序数の数え上げに焦点を当てた参照表現理解タスクのためのデータセットを新たに構築する.画像中に複数物体を配置した CG 画像を生成し,物体間関係や数え上げが必須となるような参照表現を付与する.実験では,構築したデータセットを用いて,代表的な視覚言語モデルに対する参照表現理解タスクの性能評価を実施し,順序数に対する的確な把握と活用能力について分析する. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112482 |
| 書誌情報 |
研究報告データベースシステム(DBS)
巻 2023-DBS-177,
号 27,
p. 1-6,
発行日 2023-09-14
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-871X |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |