Japanese SimpleQA: 日本語における事実に基づいた回答能力の評価ベンチマーク

三上,裕明; 鈴木,脩司

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

Japanese SimpleQA: 日本語における事実に基づいた回答能力の評価ベンチマーク

https://ipsj.ixsq.nii.ac.jp/records/2006071

名前 / ファイル	ライセンス	アクション
IPSJ-NL25266016.pdf (1.2 MB) 2027年12月8日からダウンロード可能です。	Copyright (c) 2025 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, NL:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2025-12-08

タイトル

言語

タイトル

Japanese SimpleQA: 日本語における事実に基づいた回答能力の評価ベンチマーク

言語

jpn

キーワード

主題Scheme

Other

主題

データベース（言語）

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

株式会社Preferred Networks

著者所属

株式会社Preferred Networks

著者名

三上,裕明
鈴木,脩司

論文抄録

内容記述タイプ

Other

内容記述

本報告では，大規模言語モデル（LLM）の日本語における事実に基づく回答能力（事実性）を評価するベンチマーク「Japanese SimpleQA」の構築と既存モデルの振る舞いについて述べる．Japanese SimpleQAは，短文で特定の事実について問う3000問の日本語質問応答からなるベンチマークである．SimpleQAと同様に，（1）最新のLLMにとっても高難度であり，（2）時間経過による正答の変化がなく，（3）別解が存在しない，質問応答で構成されている．この設計により，「モデルが自己の知識をどの程度正確に認識しているか」を評価できる．Japanese SimpleQAを用い，既存LLMの事実性や，RAGによる事実性の向上効果を明らかにした．構築したベンチマークはgithubで公開している．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10115061

書誌情報

研究報告自然言語処理（NL）

巻 2025-NL-266, 号 16, p. 1-7, 発行日 2025-12-08

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8779

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-12-01 04:43:39.108451

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

Japanese SimpleQA: 日本語における事実に基づいた回答能力の評価ベンチマーク

× 三上,裕明

× 鈴木,脩司

Versions

Share

Cite as

エクスポート