@techreport{oai:ipsj.ixsq.nii.ac.jp:02004355, author = {板井,孝樹 and 長谷川,駿一 and 山本,勇太 and 峰岸,剛基 and 大槻,真輝}, issue = {2}, month = {Sep}, note = {検索拡張生成(RAG)は,入力クエリに対し外部文書集合から検索器(Retriever)により取得した関連文書集合に基づき,大規模言語モデル(LLM)などの生成器(Generator)が回答を作成する手法である.Generatorには,長文中からの情報抽出と統合,多段階推論,表形式情報の解釈,関連情報不在時の適切な回答拒否など,複数の能力が求められる.しかし既存のGenerator評価ベンチマークは,これらの能力の一部に限定される場合が多く,同一条件下で多面的かつ総合的に評価できる枠組みは十分に整備されていない.本研究では,RAGのGeneratorの能力評価における観点を体系化し,観点1種または2種の全組合せを網羅する評価ベンチマークのJ-RAGBench(Japanese RAG Generator Benchmark)を構築することで,より実用的かつ包括的な評価を可能にすることを目的とする.API提供モデルとオープンウェイトモデルの主要なLLMを評価した結果,総合正解率が9割を超えたモデルは存在せず,評価カテゴリごとの正解率に差が確認され,モデル間で能力の得意・不得意が定量的に明らかになった.これらの結果は,本ベンチマークがRAG実運用でのモデル選定やRAG特化モデル構築のための有用な指標となることを示す.本ベンチマークの評価データセットはオープンソースとして公開する*1.}, title = {日本語RAGにおけるGenerator評価ベンチマークの構築}, year = {2025} }