@techreport{oai:ipsj.ixsq.nii.ac.jp:00234259,
 author = {山本, 充子 and 三浦, 尭之 and 岡田, 莉奈 and 紀伊, 真昇 and 市川, 敦謙},
 issue = {22},
 month = {May},
 note = {多属性の表形式データのプライバシー保護利活用において,保護対象となるデータと性質が似るように生成される合成データに注目が集まっている.しかしながら,その品質の評価方法は文献によってバラバラであり,文献を超えた比較が難しいうえ,具体的な数値がどのくらい品質に影響しているかの判断は難しい.本研究では,まず予備実験として 54 件の既存文献の調査により品質評価方法を整理した.次に,元データと合成データの属性ごとの分布の距離を測る統計距離関数 8 種類に注目し,代表的な 4 つの分布を用いて統計距離ごとの傾向の比較を行った.さらに,具体的な距離の値を設定し,統計距離関数ごとにその距離の範囲内で最も視覚的に異なる分布を用いた統計距離の比較方法を提案した.この分布を品質説明分布と呼ぶこととし,勾配降下法で計算する手法を示した.これらの予備実験や提案によって統計距離ごとの違いや特性を大きく 3 つ明らかにした.加えて,Adult Dataset を用いて 3 種類の合成手法による合成データを生成し,得た知見を実際に生成された合成データでも確かめた.},
 title = {合成データのカテゴリ属性に対する統計距離を用いた品質評価方法},
 year = {2024}
}