WEKO3
アイテム
能動合成データ生成:アノテーションを伴う機械学習へのプライバシ保護合成データの活用
https://ipsj.ixsq.nii.ac.jp/records/225881
https://ipsj.ixsq.nii.ac.jp/records/225881ea5c37bd-9181-4264-8332-cd59ce01c75a
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年5月11日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, ITS:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-05-11 | |||||||||||||
タイトル | ||||||||||||||
タイトル | 能動合成データ生成:アノテーションを伴う機械学習へのプライバシ保護合成データの活用 | |||||||||||||
タイトル | ||||||||||||||
言語 | en | |||||||||||||
タイトル | Active Synthetic Data Generation: Application of Privacy-Preserving Synthetic Data for Machine Learning with Annotation | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 社会・応用 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||||
資源タイプ | technical report | |||||||||||||
著者所属 | ||||||||||||||
NTT社会情報研究所 | ||||||||||||||
著者所属 | ||||||||||||||
NTT社会情報研究所 | ||||||||||||||
著者所属 | ||||||||||||||
NTT社会情報研究所 | ||||||||||||||
著者所属 | ||||||||||||||
NTT社会情報研究所 | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
NTT Social Informatics Laboratories | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
NTT Social Informatics Laboratories | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
NTT Social Informatics Laboratories | ||||||||||||||
著者所属(英) | ||||||||||||||
en | ||||||||||||||
NTT Social Informatics Laboratories | ||||||||||||||
著者名 |
税所, 修
× 税所, 修
× 三浦, 尭之
× 岩花, 一輝
× 紀伊, 真昇
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 本研究では,実世界データに対してプライバシ保護合成データを生成し,人間が効率的にアノテーションを行い,機械学習に適用する問題を扱う.合成データ生成技術は,プライバシ保護性とデータの有用性を両立し,機微データの流通性を向上させることを期待されている.合成データの機械学習活用の問題設定では,一般にラベル情報も実データに含まれ,生成の対象となる.しかしラベル情報へのノイズ付与は他の属性情報へのノイズ付与と比べて,有用性への悪影響が大きいと考えられる.一方,新たな機械学習タスクの検討では,人間がアノテータを担う必要がある事が多い.合成データへのアノテータを伴う問題設定への拡張は,有用性向上のみならず,データ流通性向上の効用をより高めることが期待できる.本研究では,合成データに能動学習を適用して効率的にアノテーションを行う手法を提案し,アノテーションコストを考慮した新たな枠組みにおけるプライバシ予算設定とモデル性能のトレードオフの変化について検証した.実験結果は従来より厳しいプライバシ予算設定下でも合成データで学習したモデルの性能を一定程度維持でき,能動学習も機能することを経験的に示した.同時に,サンプリング回数に対するモデル性能の向上速度の違いから,最適なプライバシ予算設定については別途検討が必要という課題も示した. | |||||||||||||
論文抄録(英) | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | This paper deals with the problem of generating privacy-preserving synthetic data from real-world data, efficiently annotating them by human annotators, and applying them to machine learning. Synthetic data generation is expected to improve the utility of sharing sensitive data by achieving both privacy protection and data utility. In the general setting for machine learning with synthetic data, the original data include label information, which are also targets of the generation. However, adding noises to the label information is considered to deteriorate the performance of machine learning more significantly than to the other attributes. From the viewpoint of designing new machine learning tasks, humans often take on annotator roles. Assuming human annotators for synthetic data is a natural extension that not only improves the usefulness of synthetic data but also enhances the utility of data sharing. This paper proposes an efficient annotation method by applying active learning to synthetic data and investigates the trade-off between privacy budget and model performance in this framework. The experimental results empirically show that the performances of models trained on synthetic data are reasonable even under tight privacy budget settings and that active learning also works well. The results also show an issue that how to set the optimal budget should be further studied because the improvement rate of model performance depends on the privacy budgets. | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AA11515904 | |||||||||||||
書誌情報 |
研究報告高度交通システムとスマートコミュニティ(ITS) 巻 2023-ITS-93, 号 9, p. 1-8, 発行日 2023-05-11 |
|||||||||||||
ISSN | ||||||||||||||
収録物識別子タイプ | ISSN | |||||||||||||
収録物識別子 | 2188-8965 | |||||||||||||
Notice | ||||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |