WEKO3
アイテム
ソフトウェア設計書群を外部知識源とするRAGのための検索性能改善の検討
https://ipsj.ixsq.nii.ac.jp/records/232881
https://ipsj.ixsq.nii.ac.jp/records/2328812329adfb-1c73-4555-bce7-93a2dac6a050
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2026年3月3日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, NL:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-03 | |||||||
タイトル | ||||||||
タイトル | ソフトウェア設計書群を外部知識源とするRAGのための検索性能改善の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Exploration of Search Performance Improvement for RAG Utilizing Software Design Documents as External Knowledge Sources | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 応用 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
富士通株式会社 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Fujitsu Limited. | ||||||||
著者名 |
宮崎, 桂輔
× 宮崎, 桂輔
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 従来の Retrieval-Augmented Generation(RAG)において,検索システムの結果は上位数件が採用され,検索システムの結果からの情報の取捨選択は大規模言語モデル(LLM)に行わせることが一般的である.しかし,ユースケースによっては検索結果として最上位の一件のみを LLM の入力に用いたい場合が存在する.長大かつ複雑に半構造化されたソフトウェア設計書の集まりを外部知識源とする場合,複数のソフトウェア設計書の断片を LLM が適切に理解して取捨選択を行うことは難しく,最上位の一件のみを入力に用いないと誤答につながることが考えられる.そこで本研究では,ソフトウェア設計書群を外部知識源とする RAG において,検索の recall@1 性能を向上させる手法を提案する.提案手法は,既存検索システムの検索結果である上位数件のソフトウェア設計書の断片を選択肢とする多肢選択式問題に帰着させ,LLM を用いて解くものである.実験では従来手法と提案手法を用いてソフトウェア設計書群からの検索タスクを実施し,recall@1 指標により手法を評価する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In existing Retrieval-Augmented Generation(RAG) method, the top few results of the retrieval system are used, and the selection of information from these results is typically managed by a large-scale language model(LLM). However, in certain use cases, only the top result should be used as input for the LLM. For instance, when using complex, semi-structured software design documents as an external knowledge source, the LLM may struggle to comprehend and select from multiple document fragments. This can lead to incorrect answers if multiple results are used as input. In this study, we propose a method to improve the recall@1 performance in RAG that uses a group of software design documents as an external knowledge source. We interpret the search task as a multiple-choice question, with the top few fragments from the existing search system's results serving as the choices, and solve this problem using an LLM. We evaluated both the existing and the proposed method using a search task on a group of software design documents, measuring performance with the recall@1 metric. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10115061 | |||||||
書誌情報 |
研究報告自然言語処理(NL) 巻 2024-NL-259, 号 18, p. 1-7, 発行日 2024-03-03 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8779 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |