WEKO3
アイテム
大規模言語モデルにおける忘却を用いた微調整手法の実験的評価
https://ipsj.ixsq.nii.ac.jp/records/228827
https://ipsj.ixsq.nii.ac.jp/records/2288272404716c-efd8-49e9-b2f5-8b0c78c874bb
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年10月23日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, CSEC:会員:¥0, SPT:会員:¥0, DLIB:会員:¥0 |
Item type | Symposium(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-10-23 | |||||||||||
タイトル | ||||||||||||
タイトル | 大規模言語モデルにおける忘却を用いた微調整手法の実験的評価 | |||||||||||
タイトル | ||||||||||||
言語 | en | |||||||||||
タイトル | Empirical evaluation of a fine-tuning method using forgetting in large language models | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 大規模言語モデル, 微調整, 記憶, 忘却, プライバシー | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||
資源タイプ | conference paper | |||||||||||
著者所属 | ||||||||||||
九州大学大学院システム情報科学府 | ||||||||||||
著者所属 | ||||||||||||
九州大学大学院システム情報科学研究院 | ||||||||||||
著者所属 | ||||||||||||
九州大学大学院システム情報科学研究院 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Graduate School and Faculty of Information Science and Electrical Engineering, Kyushu University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Graduate School and Faculty of Information Science and Electrical Engineering, Kyushu University |
||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Graduate School and Faculty of Information Science and Electrical Engineering, Kyushu University | ||||||||||||
著者名 |
田口, 魁人
× 田口, 魁人
× 顧, 玉杰
× 櫻井, 幸一
|
|||||||||||
著者名(英) |
Kaito, Taguchi
× Kaito, Taguchi
× Yujue, Gu
× Kouichi, Sakurai
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 近年の言語モデルはパラメータ数を増加させるとともに性能を向上させ続けている.その一方で,大規模言語モデルにおいては訓練データをそのまま記憶する傾向があることが知られている.訓練データにプライベートな情報がふくまれればデータのプライバシー保護が課題となる.また深層学習モデルは過去に学習したデータを忘却する性質も持つ.Tirumalaらの研究により,大規模言語モデルにおいて忘却の量に下限があることが実験的に示された.現在,Leeらの提案した重複削除やAbadiらの提案した差分プライバシーを保証する学習アルゴリズムを用いた手法など記憶を軽減する手法が存在するが,Carliniらの指摘するように精度を維持しつつ記憶を完全に防止する手段は知られていない.本研究では,データセットを分割し2段階で微調整する手法を提案する.本手法は,大規模言語モデルにおける忘却の性質を利用して,1回目に利用したデータセットの記憶を軽減することを目的としている.実験的な評価の結果,全パラメータを更新する微調整では,パープレキシティが0.1ほど低下するものの1回目のデータセットの記憶量が2%程減少し,全体でも0.2%程減少することが分かった.新たにパラメータを追加して微調整を行うAdapterでは同様の傾向が見られず,追加の検証が必要と考えられる. | |||||||||||
論文抄録(英) | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | Recent language models continue to improve their performance as the number of parameters is increased. On the other hand, it is known that large language models tend to store whole training samples. It is called memorization. If the training data contains private information, data privacy protection becomes an issue. Deep learning models are also prone to forgetting previously learned data, and Tirumala et al. have experimentally shown that there is a lower bound on the amount of forgetting in large language models. Currently, methods exist to mitigate memorization, such as the de-duplication proposed by Lee et al. and the method using a learning algorithm that guarantees differential privacy proposed by Abadi et al. However, as Carlini et al. points out, de-duplication does not completely prevent memorization. In this study, we propose a method for splitting a dataset and fine-tuning it in two steps. The method aims to reduce the memorization of the dataset used the first time by taking advantage of the nature of forgetting in large language models. Experimental evaluation results showed that fine-tuning, which updates all parameters, decreases the storage of the first data set by about 2%, although the perplexity decreases by about 0.1, and also decreases the overall storage by about 0.2%. The same trend was not observed for the Adapter with fine-tuning by adding new parameters, and additional verification is considered necessary. |
|||||||||||
書誌情報 |
コンピュータセキュリティシンポジウム2023論文集 p. 1574-1580, 発行日 2023-10-23 |
|||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |