ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. コンピュータセキュリティシンポジウム
  4. 2024

ノイズ付与によるLLM事前学習データセットの保護

https://ipsj.ixsq.nii.ac.jp/records/240786
https://ipsj.ixsq.nii.ac.jp/records/240786
07e6d105-7084-4b1d-8962-442fb9d07060
名前 / ファイル ライセンス アクション
IPSJ-CSS2024040.pdf IPSJ-CSS2024040.pdf (404.0 kB)
 2026年10月15日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, CSEC:会員:¥0, SPT:会員:¥0, DLIB:会員:¥0
Item type Symposium(1)
公開日 2024-10-15
タイトル
言語 ja
タイトル ノイズ付与によるLLM事前学習データセットの保護
タイトル
言語 en
タイトル LLM Pre-Training Dataset Protection by Noise Adding
言語
言語 jpn
キーワード
主題Scheme Other
主題 大規模言語モデル,データ保護
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
日本女子大学大学院理学研究科数理・物性構造科学専攻
著者所属
日本女子大学理学部数物情報科学科
著者所属
日本女子大学大学院理学研究科数理・物性構造科学専攻
著者所属
日本女子大学理学部数物情報科学科
著者所属(英)
en
Japan Women's University
著者所属(英)
en
Japan Women's University
著者所属(英)
en
Japan Women's University
著者所属(英)
en
Japan Women's University
著者名 小柳, 響子

× 小柳, 響子

小柳, 響子

Search repository
小林, 美結

× 小林, 美結

小林, 美結

Search repository
相馬, 菜生

× 相馬, 菜生

相馬, 菜生

Search repository
倉光, 君郎

× 倉光, 君郎

倉光, 君郎

Search repository
著者名(英) Kyoko, Koyanagi

× Kyoko, Koyanagi

en Kyoko, Koyanagi

Search repository
Miyu, Kobayashi

× Miyu, Kobayashi

en Miyu, Kobayashi

Search repository
Nao, Souma

× Nao, Souma

en Nao, Souma

Search repository
Kimio, Kuramitsu

× Kimio, Kuramitsu

en Kimio, Kuramitsu

Search repository
論文抄録
内容記述タイプ Other
内容記述 大規模言語モデル(LLM)は,大量のウェブテキストベースのデータセットを使用して構築される.データセットサイズが大きいほどLLMの性能は向上することが知られているが,近年,LLMのパラメータ数の増加に対して,ウェブテキストの増加が追いつかず,データセットサイズがLLMの性能向上のボトルネックになると言われている.このボトルネックを回避するには,様々な組織が持つ一般に公開されていないクローズドなテキストを使用することが有効である.しかし,クローズドなテキストには,著作権の問題やセキュリティの問題があるため,組織を越えたLLMの構築に活用することは困難である.我々は,データセットにノイズを付与することでオリジナルのデータセットへの復元が困難であり,かつLLMの性能を保つことのできるデータ保護手法の実現を目指す.本論文では,マスクトークンを用いたノイズ付与方法を提案し,ノイズ付与データセットの復元困難性とノイズ付与データセットを学習したLLMの性能を評価する.実験の結果,各トークンの出現頻度に着目した今回の方法では,復元困難性とLLMの性能の間にトレードオフの関係があることがわかった.
論文抄録(英)
内容記述タイプ Other
内容記述 Large Language Models (LLMs) perform better as the size of datasets increases. However, the growth rate of web text has not kept up with the increasing number of model parameters, and the dataset size would become a bottleneck for improving the further performance of LLMs. To address this bottleneck, using closed texts could be effective. However, these texts come with copyright and security issues, making it challenging to use them for building LLMs across different organizations. We aim to achieve a data protection method that makes it difficult to recover the original dataset by adding noise to it while maintaining the performance. This paper proposes a noise addition method using mask tokens and evaluates the difficulty of recovering the noise-added dataset and the performance of the LLMs trained on the noise-added dataset. Our experimental results show a trade-off between the level of data protection and the performance of LLMs.
書誌情報 コンピュータセキュリティシンポジウム2024論文集

p. 289-294, 発行日 2024-10-15
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:51:46.298167
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3