{"links":{},"id":2004394,"metadata":{"_oai":{"id":"oai:ipsj.ixsq.nii.ac.jp:02004394","sets":["6164:6165:6522:1752235746399"]},"path":["1752235746399"],"owner":"11","recid":"2004394","title":["拡張知識を持つLLMシステム向けテストケース生成基盤TORAK"],"pubdate":{"attribute_name":"PubDate","attribute_value":"2025-09-09"},"_buckets":{"deposit":"e41b2d66-31e1-46fe-9e1e-d52f1d5fa33d"},"_deposit":{"id":"2004394","pid":{"type":"depid","value":"2004394","revision_id":0},"owners":[11],"status":"published","created_by":11},"item_title":"拡張知識を持つLLMシステム向けテストケース生成基盤TORAK","author_link":[],"item_titles":{"attribute_name":"タイトル","attribute_value_mlt":[{"subitem_title":"拡張知識を持つLLMシステム向けテストケース生成基盤TORAK","subitem_title_language":"ja"},{"subitem_title":"TORAK: Testset ORganizer for Augmented Knowledge","subitem_title_language":"en"}]},"item_keyword":{"attribute_name":"キーワード","attribute_value_mlt":[{"subitem_subject":"機械学習とLLMのためのテスト","subitem_subject_scheme":"Other"}]},"item_type_id":"18","publish_date":"2025-09-09","item_language":{"attribute_name":"言語","attribute_value_mlt":[{"subitem_language":"jpn"}]},"item_18_text_3":{"attribute_name":"著者所属","attribute_value_mlt":[{"subitem_text_value":"日立製作所研究開発グループシステムイノベーションセンタ"},{"subitem_text_value":"日立製作所デジタルシステム&サービス統括本部品質保証統括本部デジタルサービス品質保証部"},{"subitem_text_value":"日立製作所研究開発グループシステムイノベーションセンタ"}]},"item_publisher":{"attribute_name":"出版者","attribute_value_mlt":[{"subitem_publisher":"情報処理学会","subitem_publisher_language":"ja"}]},"publish_status":"0","weko_shared_id":-1,"item_file_price":{"attribute_name":"Billing file","attribute_type":"file","attribute_value_mlt":[{"url":{"url":"https://ipsj.ixsq.nii.ac.jp/record/2004394/files/IPSJ-SES2025024.pdf","label":"IPSJ-SES2025024.pdf"},"date":[{"dateType":"Available","dateValue":"2027-09-09"}],"format":"application/pdf","billing":["billing_file"],"filename":"IPSJ-SES2025024.pdf","filesize":[{"value":"297.9 KB"}],"mimetype":"application/pdf","priceinfo":[{"tax":["include_tax"],"price":"660","billingrole":"5"},{"tax":["include_tax"],"price":"330","billingrole":"6"},{"tax":["include_tax"],"price":"0","billingrole":"12"},{"tax":["include_tax"],"price":"0","billingrole":"44"}],"accessrole":"open_date","version_id":"5eb189f1-0cac-4836-b62c-3bff81e5695c","displaytype":"detail","licensetype":"license_note","license_note":"Copyright (c) 2025 by the Information Processing Society of Japan"}]},"item_18_creator_5":{"attribute_name":"著者名","attribute_type":"creator","attribute_value_mlt":[{"creatorNames":[{"creatorName":"新原,敦介"}]},{"creatorNames":[{"creatorName":"竹森,司"}]},{"creatorNames":[{"creatorName":"小川,秀人"}]}]},"item_resource_type":{"attribute_name":"資源タイプ","attribute_value_mlt":[{"resourceuri":"http://purl.org/coar/resource_type/c_5794","resourcetype":"conference paper"}]},"item_18_description_7":{"attribute_name":"論文抄録","attribute_value_mlt":[{"subitem_description":"大規模言語モデル(LLM)に対してRAGやファインチューニングによる知識拡張は,LLMの応用範囲を拡大している.拡張知識を導入したLLMシステムの品質保証には,拡張知識を基にして様々な評価観点のテストが必要となる.拡張知識は対象システムに固有のものであるため個別にテストを開発する必要があり,そのテストには拡張知識に対する網羅性が求められる.そのため,LLMが担うタスクと様々な評価観点ごとに,拡張知識に基づいた網羅的なテストを個別に開発することになり,工数が非常に高いという問題がある.本研究では,拡張知識を導入したLLMシステム向けのテストケース生成基盤'TORAK(Testset ORganizer for Augmented Knowledge)'を開発した.TORAKは,拡張知識に基づく質問と期待する回答のセットを効率的に生成するために,Pipeline and FilterパターンとChain of Thoughtを組み合わせて,様々なタスクや評価観点に対応する.架空のチャットボットシステム,ソースコード生成・修正システムと実在の事例検索システムにおいてTORAKを試行評価した結果,様々な評価観点に対して低コストでテストケースを作成可能であった.その一方で,有効ではないテストケースが含まれる可能性があるため,相対的な評価の基準として用いる運用やテストケースを精査する運用が有効であると判明した.","subitem_description_type":"Other"}]},"item_18_biblio_info_10":{"attribute_name":"書誌情報","attribute_value_mlt":[{"bibliographicPageEnd":"152","bibliographic_titles":[{"bibliographic_title":"ソフトウェアエンジニアリングシンポジウム2025論文集"}],"bibliographicPageStart":"144","bibliographicIssueDates":{"bibliographicIssueDate":"2025-09-09","bibliographicIssueDateType":"Issued"},"bibliographicVolumeNumber":"2025"}]},"relation_version_is_last":true,"weko_creator_id":"11"},"created":"2025-09-05T07:47:53.315541+00:00","updated":"2025-09-05T07:47:57.906320+00:00"}