@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00240991, author = {税所, 修 and 三浦, 尭之 and 岩花, 一輝 and 紀伊, 真昇 and 岡田, 莉奈 and Osamu, Saisho and Takayuki, Miura and Kazuki, Iwahana and Masanobu, Kii and Rina, Okada}, book = {コンピュータセキュリティシンポジウム2024論文集}, month = {Oct}, note = {医療ヘルスケアなどの機微なデータとAIの融合により新価値を生み出すには,その学習データセットやAIモデルの構築といった人間が携わる作業が欠かせない.秘密計算やコンフィデンシャルコンピューティングなどAIの学習や推論をセキュアに行う技術が盛んに研究されているが,多くはAIライフサイクル全体は対象としておらず,人間が携わる作業を想定していない.そこで人間を含めたAIライフサイクル全体のセキュア化を目的に,本研究では合成データ生成時にて差分プライバシを加味する際に能動学習における獲得関数を同時に考慮することで,プライバシ保護を考慮した上で効率的な人間によるアノテーション工程を実現する.従来の差分プライバシ保証付きの合成データ生成手法では,目的変数を含む実データから合成データを生成する際に差分プライバシノイズを加味してきた.本研究では,新価値創造を目指して新たな学習データセットを構築する際に,人間がアノテーションを行うことが一般的であることに着目して新たな枠組みを構築する.提案手法では,説明変数のみの実データから説明変数のみの合成データを差分プライバシ保証付きで生成するとともに,アノテーションを効率化するために用いられる能動学習を同時に組み込む.具体的には,合成データの生成を一括で行わずに逐次的に行うものとし,合成データ生成時に能動学習における獲得関数と差分プライバシ保証を同時に考慮する.実験の結果,プライバシを配慮せずに実データを用いた従来の学習と比較し,差分プライバシを考慮しつつも大きくは劣らないモデル精度を達成できることを示した., To create new value through the fusion of sensitive data and AI, for example in medical and healthcare fields, human involvement is essential in building the training datasets and AI models. Although there is a lot of research on technologies to secure AI training and inference, such as secret computation and confidential computing, most of them do not target the entire AI lifecycle and do not assume the human involvement. To secure the entire AI lifecycle including human tasks, this research aims to realize an efficient annotation process by humans with privacy preservation considering both of acquisition function in active learning and differential privacy in synthetic data generation. Conventional synthetic data generation methods with differential privacy guarantees have taken differential privacy noise into account when generating synthetic data from actual data containing the target variable. This study focuses on the fact that human annotation is commonly performed when building new training datasets for new value creation, and develops a new framework. The proposed method generates synthetic data with only explanatory variables from actual data with only explanatory variables considering differential privacy guarantee and annotation efficiency achieved by active learning at the same time. Specifically, the synthetic data are not generated in batches but iteratively, and the acquisition function and differential privacy guarantee in active learning are considered simultaneously when the iterative generation of the synthetic data. Experimental results show that the model accuracy is not significantly inferior to that of conventional learning using actual data without taking privacy into account.}, pages = {1839--1845}, publisher = {情報処理学会}, title = {差分プライバシとラベル付け効率を同時に考慮した能動合成データ生成}, year = {2024} }