ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. マルチメディア通信と分散処理(DPS)
  3. 2023
  4. 2023-DPS-195

能動合成データ生成:アノテーションを伴う機械学習へのプライバシ保護合成データの活用

https://ipsj.ixsq.nii.ac.jp/records/225767
https://ipsj.ixsq.nii.ac.jp/records/225767
93a596a5-090a-4153-9af0-ce775089eb8c
名前 / ファイル ライセンス アクション
IPSJ-DPS23195009.pdf IPSJ-DPS23195009.pdf (1.7 MB)
Copyright (c) 2023 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2023-05-11
タイトル
タイトル 能動合成データ生成:アノテーションを伴う機械学習へのプライバシ保護合成データの活用
タイトル
言語 en
タイトル Active Synthetic Data Generation: Application of Privacy-Preserving Synthetic Data for Machine Learning with Annotation
言語
言語 jpn
キーワード
主題Scheme Other
主題 社会・応用
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
NTT社会情報研究所
著者所属
NTT社会情報研究所
著者所属
NTT社会情報研究所
著者所属
NTT社会情報研究所
著者所属(英)
en
NTT Social Informatics Laboratories
著者所属(英)
en
NTT Social Informatics Laboratories
著者所属(英)
en
NTT Social Informatics Laboratories
著者所属(英)
en
NTT Social Informatics Laboratories
著者名 税所, 修

× 税所, 修

税所, 修

Search repository
三浦, 尭之

× 三浦, 尭之

三浦, 尭之

Search repository
岩花, 一輝

× 岩花, 一輝

岩花, 一輝

Search repository
紀伊, 真昇

× 紀伊, 真昇

紀伊, 真昇

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,実世界データに対してプライバシ保護合成データを生成し,人間が効率的にアノテーションを行い,機械学習に適用する問題を扱う.合成データ生成技術は,プライバシ保護性とデータの有用性を両立し,機微データの流通性を向上させることを期待されている.合成データの機械学習活用の問題設定では,一般にラベル情報も実データに含まれ,生成の対象となる.しかしラベル情報へのノイズ付与は他の属性情報へのノイズ付与と比べて,有用性への悪影響が大きいと考えられる.一方,新たな機械学習タスクの検討では,人間がアノテータを担う必要がある事が多い.合成データへのアノテータを伴う問題設定への拡張は,有用性向上のみならず,データ流通性向上の効用をより高めることが期待できる.本研究では,合成データに能動学習を適用して効率的にアノテーションを行う手法を提案し,アノテーションコストを考慮した新たな枠組みにおけるプライバシ予算設定とモデル性能のトレードオフの変化について検証した.実験結果は従来より厳しいプライバシ予算設定下でも合成データで学習したモデルの性能を一定程度維持でき,能動学習も機能することを経験的に示した.同時に,サンプリング回数に対するモデル性能の向上速度の違いから,最適なプライバシ予算設定については別途検討が必要という課題も示した.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper deals with the problem of generating privacy-preserving synthetic data from real-world data, efficiently annotating them by human annotators, and applying them to machine learning. Synthetic data generation is expected to improve the utility of sharing sensitive data by achieving both privacy protection and data utility. In the general setting for machine learning with synthetic data, the original data include label information, which are also targets of the generation. However, adding noises to the label information is considered to deteriorate the performance of machine learning more significantly than to the other attributes. From the viewpoint of designing new machine learning tasks, humans often take on annotator roles. Assuming human annotators for synthetic data is a natural extension that not only improves the usefulness of synthetic data but also enhances the utility of data sharing. This paper proposes an efficient annotation method by applying active learning to synthetic data and investigates the trade-off between privacy budget and model performance in this framework. The experimental results empirically show that the performances of models trained on synthetic data are reasonable even under tight privacy budget settings and that active learning also works well. The results also show an issue that how to set the optimal budget should be further studied because the improvement rate of model performance depends on the privacy budgets.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10116224
書誌情報 研究報告マルチメディア通信と分散処理(DPS)

巻 2023-DPS-195, 号 9, p. 1-8, 発行日 2023-05-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8906
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 12:41:11.460816
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3