| Item type |
Journal(1) |
| 公開日 |
2022-04-15 |
| タイトル |
|
|
タイトル |
頻度情報の付加による匿名化データの有用性向上技術の一提案 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
A Proposal of Utility Improvement of Anonymized Data by Adding Frequency Distribution |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[一般論文(推薦論文)] 匿名化,テーブルデータ |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
| ID登録 |
|
|
ID登録 |
10.20729/00217610 |
|
ID登録タイプ |
JaLC |
| 著者所属 |
|
|
|
富士通株式会社 |
| 著者所属 |
|
|
|
富士通株式会社 |
| 著者所属 |
|
|
|
富士通株式会社 |
| 著者所属(英) |
|
|
|
en |
|
|
Fujitsu Limited |
| 著者所属(英) |
|
|
|
en |
|
|
Fujitsu Limited |
| 著者所属(英) |
|
|
|
en |
|
|
Fujitsu Limited |
| 著者名 |
寺田, 剛陽
山岡, 裕司
福岡, 尊
|
| 著者名(英) |
Takeaki, Terada
Yuji, Yamaoka
Takeru, Fukuoka
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
AIを用いて優れた予測モデルを作成するには多くのデータを要する.自組織のデータだけで十分な予測精度が得られない場合はオープンデータや他組織のデータの活用が考えられるが,これらのデータは個人情報漏洩の防止の観点から匿名化が施されている.匿名化はデータの情報量を減らしてしまうため予測精度に影響する.本論文では,匿名化前の統計情報を匿名化データに付与することでデータ劣化を抑える方式を提案し,2種類のデータセットを用いて評価した.結果,学習アルゴリズムに依存はするものの従来方式と同等以上の精度を示す傾向を得た. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Making trained models by machine learning often requires a large training dataset. If we can not acquire sufficient prediction accuracy, we have the option of using open datasets or other organization's datasets related to the dataset we deal with. However, these datasets are usually anonymized to protect the privacy information included in the dataset. Anonymization is prone to degrade the quality of the given dataset, which affects prediction accuracy. Therefore, we proposed the method that mitigates the degradation by using adding the statistical information to the anonymized dataset. We evaluated the proposed method with two datasets. As a result, it showed the tendency of accuracy equivalent to or superior to existing methods. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
| 書誌情報 |
情報処理学会論文誌
巻 63,
号 4,
p. 1072-1081,
発行日 2022-04-15
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |