Item type |
SIG Technical Reports(1) |
公開日 |
2024-05-23 |
タイトル |
|
|
タイトル |
合成データのカテゴリ属性に対する統計距離を用いた品質評価方法 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
CSEC2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者所属 |
|
|
|
NTT社会情報研究所 |
著者名 |
山本, 充子
三浦, 尭之
岡田, 莉奈
紀伊, 真昇
市川, 敦謙
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
多属性の表形式データのプライバシー保護利活用において,保護対象となるデータと性質が似るように生成される合成データに注目が集まっている.しかしながら,その品質の評価方法は文献によってバラバラであり,文献を超えた比較が難しいうえ,具体的な数値がどのくらい品質に影響しているかの判断は難しい.本研究では,まず予備実験として 54 件の既存文献の調査により品質評価方法を整理した.次に,元データと合成データの属性ごとの分布の距離を測る統計距離関数 8 種類に注目し,代表的な 4 つの分布を用いて統計距離ごとの傾向の比較を行った.さらに,具体的な距離の値を設定し,統計距離関数ごとにその距離の範囲内で最も視覚的に異なる分布を用いた統計距離の比較方法を提案した.この分布を品質説明分布と呼ぶこととし,勾配降下法で計算する手法を示した.これらの予備実験や提案によって統計距離ごとの違いや特性を大きく 3 つ明らかにした.加えて,Adult Dataset を用いて 3 種類の合成手法による合成データを生成し,得た知見を実際に生成された合成データでも確かめた. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA12326962 |
書誌情報 |
研究報告インターネットと運用技術(IOT)
巻 2024-IOT-65,
号 22,
p. 1-8,
発行日 2024-05-23
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8787 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |