視覚言語モデルに関する順序数の的確な把握と活用能力の調査

増田, 琉斗; 宮森, 恒; Ryuto, Masuda; Hisashi, Miyamori

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

視覚言語モデルに関する順序数の的確な把握と活用能力の調査

https://ipsj.ixsq.nii.ac.jp/records/227759

名前 / ファイル	ライセンス	アクション
IPSJ-DBS23177027.pdf (1.5 MB)	Copyright (c) 2023 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
DBS:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2023-09-14

タイトル

視覚言語モデルに関する順序数の的確な把握と活用能力の調査

タイトル

言語

タイトル

Probing the ability to accurately understand and utilize the ordinal numbers by visual language models

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

京都産業大学情報理工学部

著者所属

京都産業大学情報理工学部

著者所属(英)

Faculty of Information Science and Engineering, Kyoto Sangyo University

著者所属(英)

Faculty of Information Science and Engineering, Kyoto Sangyo University

著者名

増田, 琉斗
宮森, 恒

著者名(英)

Ryuto, Masuda
Hisashi, Miyamori

論文抄録

内容記述タイプ

Other

内容記述

本稿では，視覚言語モデルが，順序数の概念を的確に把握し活用する能力をどの程度有するのかについて調査する．Transformer ベースの大規模事前学習モデルは，四則演算といった単純な算術問題等のタスクにおいて高い正答率を示しているが，モデルが数の概念をどのように捉え，活用しているのかについては不明な点も多い．本研究では，数の概念の一つとして，順序数に焦点をあて，Transformer ベースの視覚言語モデルが，順序数の概念をどの程度把握し活用する能力をもつのかについて調査する．具体的には，順序数の数え上げに焦点を当てた参照表現理解タスクのためのデータセットを新たに構築する．画像中に複数物体を配置した CG 画像を生成し，物体間関係や数え上げが必須となるような参照表現を付与する．実験では，構築したデータセットを用いて，代表的な視覚言語モデルに対する参照表現理解タスクの性能評価を実施し，順序数に対する的確な把握と活用能力について分析する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10112482

書誌情報

研究報告データベースシステム（DBS）

巻 2023-DBS-177, 号 27, p. 1-6, 発行日 2023-09-14

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-871X

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 12:04:50.546700

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

視覚言語モデルに関する順序数の的確な把握と活用能力の調査

× 増田, 琉斗

× 宮森, 恒

× Ryuto, Masuda

× Hisashi, Miyamori

Versions

Share

Cite as

エクスポート