官术网_书友最值得收藏!

2.2.1 小分組問題

在很多情況下,我們需要將數據分組,并分別給出各個分組的聚合統計結果。舉例來說,我們可能想知道取得不同學位的個體的平均年齡。

一般認為,對數據進行聚合處理可以提升數據的隱私保護效果,因為很難識別出特定個體對聚合統計結果所帶來的影響。但如果某個分組只包含一個個體呢?在這種情況下,聚合統計結果將準確泄露此個體的年齡,無法提供任何隱私保護。在我們的數據集中,大多數個體的郵政編碼是唯一的。因此,如果我們計算不同郵政編碼所屬個體的平均年齡,則大多數“平均值”將直接泄露單一個體的年齡。

例如,美國人口普查局以街區為粒度(見https://www.census.gov/newsroom/blogs/random-samplings/2011/07/what-are-census-blocks.html)發布聚合統計數據。有些人口普查區的人口眾多,但有些人口普查區的人口為0。事實證明,聚合統計結果無法隱藏小分組的個體信息的情況相當普遍。

分組要達到多大,聚合統計結果才能隱藏個體信息?這個問題很難回答,因為只有知道數據本身和具體的攻擊方法時,才能回答這個問題。因此,很難確信聚合統計結果真的能達到隱私保護的目的。然而,我們接下來將會看到,即使分組足夠大,也可以實施相應的攻擊,從聚合結果中獲得個體信息。

主站蜘蛛池模板: 新巴尔虎右旗| 桂阳县| 荔浦县| 西安市| 新干县| 云安县| 奎屯市| 西乌珠穆沁旗| 安仁县| 游戏| 华安县| 耒阳市| 武鸣县| 东山县| 肥西县| 昭觉县| 额敏县| 沙雅县| 镇安县| 信阳市| 衡南县| 萝北县| 调兵山市| 桐乡市| 房山区| 鹤壁市| 三明市| 阜新市| 博乐市| 玉环县| 梁平县| 嘉祥县| 孝义市| 广东省| 房山区| 乐陵市| 玛曲县| 五大连池市| 葵青区| 平阳县| 资兴市|