@inproceedings{oai:ipsj.ixsq.nii.ac.jp:02004394, author = {新原,敦介 and 竹森,司 and 小川,秀人}, book = {ソフトウェアエンジニアリングシンポジウム2025論文集}, month = {Sep}, note = {大規模言語モデル(LLM)に対してRAGやファインチューニングによる知識拡張は,LLMの応用範囲を拡大している.拡張知識を導入したLLMシステムの品質保証には,拡張知識を基にして様々な評価観点のテストが必要となる.拡張知識は対象システムに固有のものであるため個別にテストを開発する必要があり,そのテストには拡張知識に対する網羅性が求められる.そのため,LLMが担うタスクと様々な評価観点ごとに,拡張知識に基づいた網羅的なテストを個別に開発することになり,工数が非常に高いという問題がある.本研究では,拡張知識を導入したLLMシステム向けのテストケース生成基盤'TORAK(Testset ORganizer for Augmented Knowledge)'を開発した.TORAKは,拡張知識に基づく質問と期待する回答のセットを効率的に生成するために,Pipeline and FilterパターンとChain of Thoughtを組み合わせて,様々なタスクや評価観点に対応する.架空のチャットボットシステム,ソースコード生成・修正システムと実在の事例検索システムにおいてTORAKを試行評価した結果,様々な評価観点に対して低コストでテストケースを作成可能であった.その一方で,有効ではないテストケースが含まれる可能性があるため,相対的な評価の基準として用いる運用やテストケースを精査する運用が有効であると判明した.}, pages = {144--152}, publisher = {情報処理学会}, title = {拡張知識を持つLLMシステム向けテストケース生成基盤TORAK}, volume = {2025}, year = {2025} }