@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00240786, author = {小柳, 響子 and 小林, 美結 and 相馬, 菜生 and 倉光, 君郎 and Kyoko, Koyanagi and Miyu, Kobayashi and Nao, Souma and Kimio, Kuramitsu}, book = {コンピュータセキュリティシンポジウム2024論文集}, month = {Oct}, note = {大規模言語モデル(LLM)は,大量のウェブテキストベースのデータセットを使用して構築される.データセットサイズが大きいほどLLMの性能は向上することが知られているが,近年,LLMのパラメータ数の増加に対して,ウェブテキストの増加が追いつかず,データセットサイズがLLMの性能向上のボトルネックになると言われている.このボトルネックを回避するには,様々な組織が持つ一般に公開されていないクローズドなテキストを使用することが有効である.しかし,クローズドなテキストには,著作権の問題やセキュリティの問題があるため,組織を越えたLLMの構築に活用することは困難である.我々は,データセットにノイズを付与することでオリジナルのデータセットへの復元が困難であり,かつLLMの性能を保つことのできるデータ保護手法の実現を目指す.本論文では,マスクトークンを用いたノイズ付与方法を提案し,ノイズ付与データセットの復元困難性とノイズ付与データセットを学習したLLMの性能を評価する.実験の結果,各トークンの出現頻度に着目した今回の方法では,復元困難性とLLMの性能の間にトレードオフの関係があることがわかった., Large Language Models (LLMs) perform better as the size of datasets increases. However, the growth rate of web text has not kept up with the increasing number of model parameters, and the dataset size would become a bottleneck for improving the further performance of LLMs. To address this bottleneck, using closed texts could be effective. However, these texts come with copyright and security issues, making it challenging to use them for building LLMs across different organizations. We aim to achieve a data protection method that makes it difficult to recover the original dataset by adding noise to it while maintaining the performance. This paper proposes a noise addition method using mask tokens and evaluates the difficulty of recovering the noise-added dataset and the performance of the LLMs trained on the noise-added dataset. Our experimental results show a trade-off between the level of data protection and the performance of LLMs.}, pages = {289--294}, publisher = {情報処理学会}, title = {ノイズ付与によるLLM事前学習データセットの保護}, year = {2024} }