| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-09-14 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
日本語RAGにおけるGenerator評価ベンチマークの構築 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
データセット構築 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
株式会社neoAI |
| 著者所属 |
|
|
|
株式会社neoAI |
| 著者所属 |
|
|
|
株式会社neoAI |
| 著者所属 |
|
|
|
株式会社neoAI |
| 著者所属 |
|
|
|
株式会社neoAI |
| 著者所属(英) |
|
|
|
en |
|
|
neoAI.inc |
| 著者所属(英) |
|
|
|
en |
|
|
neoAI.inc |
| 著者所属(英) |
|
|
|
en |
|
|
neoAI.inc |
| 著者所属(英) |
|
|
|
en |
|
|
neoAI.inc |
| 著者所属(英) |
|
|
|
en |
|
|
neoAI.inc |
| 著者名 |
板井,孝樹
長谷川,駿一
山本,勇太
峰岸,剛基
大槻,真輝
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
検索拡張生成(RAG)は,入力クエリに対し外部文書集合から検索器(Retriever)により取得した関連文書集合に基づき,大規模言語モデル(LLM)などの生成器(Generator)が回答を作成する手法である.Generatorには,長文中からの情報抽出と統合,多段階推論,表形式情報の解釈,関連情報不在時の適切な回答拒否など,複数の能力が求められる.しかし既存のGenerator評価ベンチマークは,これらの能力の一部に限定される場合が多く,同一条件下で多面的かつ総合的に評価できる枠組みは十分に整備されていない.本研究では,RAGのGeneratorの能力評価における観点を体系化し,観点1種または2種の全組合せを網羅する評価ベンチマークのJ-RAGBench(Japanese RAG Generator Benchmark)を構築することで,より実用的かつ包括的な評価を可能にすることを目的とする.API提供モデルとオープンウェイトモデルの主要なLLMを評価した結果,総合正解率が9割を超えたモデルは存在せず,評価カテゴリごとの正解率に差が確認され,モデル間で能力の得意・不得意が定量的に明らかになった.これらの結果は,本ベンチマークがRAG実運用でのモデル選定やRAG特化モデル構築のための有用な指標となることを示す.本ベンチマークの評価データセットはオープンソースとして公開する*1. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10115061 |
| 書誌情報 |
研究報告自然言語処理(NL)
巻 2025-NL-265,
号 2,
p. 1-14,
発行日 2025-09-14
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8779 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |