@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00240788, author = {中井, 綱人 and 東, 拓矢 and 大西, 健斗 and Tsunato, Nakai and Takuya, Higashi and Kento, Oonishi}, book = {コンピュータセキュリティシンポジウム2024論文集}, month = {Oct}, note = {検索拡張生成(RAG)は,外部知識データベース(リトリーバルデータベース)から関連知識を取得することで,大規模言語モデルの学習効率,知識更新,信頼性を強化する技術である.RAGの有用性が注目される一方で,RAGシステムに対するセキュリティ・プライバシーリスクが指摘されはじめている.先行研究では,RAG特有であるリトリーバルデータベースのデータに関する情報漏洩リスクが明らかにされたが,大規模言語モデルの学習データに関する情報漏洩リスクは反対にRAGにより軽減するとの報告があった.これまで様々な機械学習システムに対して,メンバーシップ推論攻撃による学習モデルからの情報漏洩リスクの評価が行われてきたが,RAGシステムに対するメンバーシップ推論攻撃評価はまだ十分に行われていない.特に,RAGシステムに対する大規模言語モデルの学習データに関する情報漏洩リスクに焦点を当てたメンバーシップ推論攻撃は実施されておらず,RAGによるそのリスクの軽減効果も検証されていない.そこで本稿では,RAGによる大規模言語モデルの学習データに関する情報漏洩リスクの軽減効果をメンバーシップ推論攻撃で検証した結果を報告する.70億パラメータ規模の3つの大規模言語モデルと2つのデータセットを用いたRAGシステムの実験により,メンバーシップ推論攻撃評価では先行研究の報告と異なり,大規模言語モデルの学習データ漏洩リスクはRAGにより軽減されないことを明らかにした., Retrieval-augmented Generation (RAG) is a technique that enhances the training efficiency, knowledge updating, and reliability of large language models (LLMs) by retrieving relevant knowledge from an external knowledge database (retrieval database). While the usefulness of RAG is gaining attention, security and privacy risks associated with RAG systems are beginning to be pointed out. Previous studies have revealed the risk of information leakage related to the data within retrieval databases, which is unique to RAG systems, but it has been reported that RAG may mitigate the risk of information leakage related to the training data of LLMs. Although various machine learning systems have been evaluated for the risk of information leakage from trained models through membership inference attacks (MIAs), the evaluation of MIAs on RAG systems has not been sufficiently conducted. In particular, no studies have yet conducted MIAs focusing on the risk of information leakage related to the training data of LLMs on RAG systems, and the potential risk mitigation effects of RAG has not been evaluated. This paper reports the results of evaluating the risk mitigation effect of RAG on information leakage related to the training data of LLMs through MIAs. Experimental evaluation of RAG systems using three LLMs with 7 billion parameters and two datasets revealed that, contrary to previous studies, RAG does not mitigate the risk of training data leakage from LLMs in MIAs.}, pages = {303--310}, publisher = {情報処理学会}, title = {検索拡張生成(RAG)は大規模言語モデルからの学習データ漏洩リスクを軽減するのか?}, year = {2024} }