Item type |
Symposium(1) |
公開日 |
2024-10-15 |
タイトル |
|
|
言語 |
ja |
|
タイトル |
ノイズ付与によるLLM事前学習データセットの保護 |
タイトル |
|
|
言語 |
en |
|
タイトル |
LLM Pre-Training Dataset Protection by Noise Adding |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
大規模言語モデル,データ保護 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
日本女子大学大学院理学研究科数理・物性構造科学専攻 |
著者所属 |
|
|
|
日本女子大学理学部数物情報科学科 |
著者所属 |
|
|
|
日本女子大学大学院理学研究科数理・物性構造科学専攻 |
著者所属 |
|
|
|
日本女子大学理学部数物情報科学科 |
著者所属(英) |
|
|
|
en |
|
|
Japan Women's University |
著者所属(英) |
|
|
|
en |
|
|
Japan Women's University |
著者所属(英) |
|
|
|
en |
|
|
Japan Women's University |
著者所属(英) |
|
|
|
en |
|
|
Japan Women's University |
著者名 |
小柳, 響子
小林, 美結
相馬, 菜生
倉光, 君郎
|
著者名(英) |
Kyoko, Koyanagi
Miyu, Kobayashi
Nao, Souma
Kimio, Kuramitsu
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模言語モデル(LLM)は,大量のウェブテキストベースのデータセットを使用して構築される.データセットサイズが大きいほどLLMの性能は向上することが知られているが,近年,LLMのパラメータ数の増加に対して,ウェブテキストの増加が追いつかず,データセットサイズがLLMの性能向上のボトルネックになると言われている.このボトルネックを回避するには,様々な組織が持つ一般に公開されていないクローズドなテキストを使用することが有効である.しかし,クローズドなテキストには,著作権の問題やセキュリティの問題があるため,組織を越えたLLMの構築に活用することは困難である.我々は,データセットにノイズを付与することでオリジナルのデータセットへの復元が困難であり,かつLLMの性能を保つことのできるデータ保護手法の実現を目指す.本論文では,マスクトークンを用いたノイズ付与方法を提案し,ノイズ付与データセットの復元困難性とノイズ付与データセットを学習したLLMの性能を評価する.実験の結果,各トークンの出現頻度に着目した今回の方法では,復元困難性とLLMの性能の間にトレードオフの関係があることがわかった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Large Language Models (LLMs) perform better as the size of datasets increases. However, the growth rate of web text has not kept up with the increasing number of model parameters, and the dataset size would become a bottleneck for improving the further performance of LLMs. To address this bottleneck, using closed texts could be effective. However, these texts come with copyright and security issues, making it challenging to use them for building LLMs across different organizations. We aim to achieve a data protection method that makes it difficult to recover the original dataset by adding noise to it while maintaining the performance. This paper proposes a noise addition method using mask tokens and evaluates the difficulty of recovering the noise-added dataset and the performance of the LLMs trained on the noise-added dataset. Our experimental results show a trade-off between the level of data protection and the performance of LLMs. |
書誌情報 |
コンピュータセキュリティシンポジウム2024論文集
p. 289-294,
発行日 2024-10-15
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |