Item type |
Symposium(1) |
公開日 |
2024-10-15 |
タイトル |
|
|
言語 |
ja |
|
タイトル |
差分プライバシとラベル付け効率を同時に考慮した能動合成データ生成 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Active Synthetic Data Generation with Joint Consideration of Differential Privacy and Labelling Efficiency |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
合成データ,差分プライバシ,AI セキュリティ,能動学習,アノテーション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属(英) |
|
|
|
en |
|
|
NTT Social Informatics Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Social Informatics Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Social Informatics Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Social Informatics Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Social Informatics Laboratories |
著者名 |
税所, 修
三浦, 尭之
岩花, 一輝
紀伊, 真昇
岡田, 莉奈
|
著者名(英) |
Osamu, Saisho
Takayuki, Miura
Kazuki, Iwahana
Masanobu, Kii
Rina, Okada
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
医療ヘルスケアなどの機微なデータとAIの融合により新価値を生み出すには,その学習データセットやAIモデルの構築といった人間が携わる作業が欠かせない.秘密計算やコンフィデンシャルコンピューティングなどAIの学習や推論をセキュアに行う技術が盛んに研究されているが,多くはAIライフサイクル全体は対象としておらず,人間が携わる作業を想定していない.そこで人間を含めたAIライフサイクル全体のセキュア化を目的に,本研究では合成データ生成時にて差分プライバシを加味する際に能動学習における獲得関数を同時に考慮することで,プライバシ保護を考慮した上で効率的な人間によるアノテーション工程を実現する.従来の差分プライバシ保証付きの合成データ生成手法では,目的変数を含む実データから合成データを生成する際に差分プライバシノイズを加味してきた.本研究では,新価値創造を目指して新たな学習データセットを構築する際に,人間がアノテーションを行うことが一般的であることに着目して新たな枠組みを構築する.提案手法では,説明変数のみの実データから説明変数のみの合成データを差分プライバシ保証付きで生成するとともに,アノテーションを効率化するために用いられる能動学習を同時に組み込む.具体的には,合成データの生成を一括で行わずに逐次的に行うものとし,合成データ生成時に能動学習における獲得関数と差分プライバシ保証を同時に考慮する.実験の結果,プライバシを配慮せずに実データを用いた従来の学習と比較し,差分プライバシを考慮しつつも大きくは劣らないモデル精度を達成できることを示した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
To create new value through the fusion of sensitive data and AI, for example in medical and healthcare fields, human involvement is essential in building the training datasets and AI models. Although there is a lot of research on technologies to secure AI training and inference, such as secret computation and confidential computing, most of them do not target the entire AI lifecycle and do not assume the human involvement. To secure the entire AI lifecycle including human tasks, this research aims to realize an efficient annotation process by humans with privacy preservation considering both of acquisition function in active learning and differential privacy in synthetic data generation. Conventional synthetic data generation methods with differential privacy guarantees have taken differential privacy noise into account when generating synthetic data from actual data containing the target variable. This study focuses on the fact that human annotation is commonly performed when building new training datasets for new value creation, and develops a new framework. The proposed method generates synthetic data with only explanatory variables from actual data with only explanatory variables considering differential privacy guarantee and annotation efficiency achieved by active learning at the same time. Specifically, the synthetic data are not generated in batches but iteratively, and the acquisition function and differential privacy guarantee in active learning are considered simultaneously when the iterative generation of the synthetic data. Experimental results show that the model accuracy is not significantly inferior to that of conventional learning using actual data without taking privacy into account. |
書誌情報 |
コンピュータセキュリティシンポジウム2024論文集
p. 1839-1845,
発行日 2024-10-15
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |