ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ソフトウェアエンジニアリングシンポジウム
  4. 2025

拡張知識を持つLLMシステム向けテストケース生成基盤TORAK

https://ipsj.ixsq.nii.ac.jp/records/2004394
https://ipsj.ixsq.nii.ac.jp/records/2004394
b7f7930c-a384-4885-b01c-0af1ce434b9a
名前 / ファイル ライセンス アクション
IPSJ-SES2025024.pdf IPSJ-SES2025024.pdf (297.9 KB)
 2027年9月9日からダウンロード可能です。
Copyright (c) 2025 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, SE:会員:¥0, DLIB:会員:¥0
Item type Symposium(1)
公開日 2025-09-09
タイトル
言語 ja
タイトル 拡張知識を持つLLMシステム向けテストケース生成基盤TORAK
タイトル
言語 en
タイトル TORAK: Testset ORganizer for Augmented Knowledge
言語
言語 jpn
キーワード
主題Scheme Other
主題 機械学習とLLMのためのテスト
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
日立製作所研究開発グループシステムイノベーションセンタ
著者所属
日立製作所デジタルシステム&サービス統括本部品質保証統括本部デジタルサービス品質保証部
著者所属
日立製作所研究開発グループシステムイノベーションセンタ
著者名 新原,敦介

× 新原,敦介

新原,敦介

Search repository
竹森,司

× 竹森,司

竹森,司

Search repository
小川,秀人

× 小川,秀人

小川,秀人

Search repository
論文抄録
内容記述タイプ Other
内容記述 大規模言語モデル(LLM)に対してRAGやファインチューニングによる知識拡張は,LLMの応用範囲を拡大している.拡張知識を導入したLLMシステムの品質保証には,拡張知識を基にして様々な評価観点のテストが必要となる.拡張知識は対象システムに固有のものであるため個別にテストを開発する必要があり,そのテストには拡張知識に対する網羅性が求められる.そのため,LLMが担うタスクと様々な評価観点ごとに,拡張知識に基づいた網羅的なテストを個別に開発することになり,工数が非常に高いという問題がある.本研究では,拡張知識を導入したLLMシステム向けのテストケース生成基盤'TORAK(Testset ORganizer for Augmented Knowledge)'を開発した.TORAKは,拡張知識に基づく質問と期待する回答のセットを効率的に生成するために,Pipeline and FilterパターンとChain of Thoughtを組み合わせて,様々なタスクや評価観点に対応する.架空のチャットボットシステム,ソースコード生成・修正システムと実在の事例検索システムにおいてTORAKを試行評価した結果,様々な評価観点に対して低コストでテストケースを作成可能であった.その一方で,有効ではないテストケースが含まれる可能性があるため,相対的な評価の基準として用いる運用やテストケースを精査する運用が有効であると判明した.
書誌情報 ソフトウェアエンジニアリングシンポジウム2025論文集

巻 2025, p. 144-152, 発行日 2025-09-09
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-09-05 07:47:55.757494
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3