- 動手學差分隱私
- (美)約瑟夫·P.尼爾等
- 542字
- 2024-05-11 19:14:13
2.1.3 可以重標識出多少個個體
我們可以在此數據集中重標識出多少個個體?可以使用輔助信息來找到這個問題的答案。首先,看看只知道出生日期會發生什么。我們想知道輔助數據中的每個出生日期能幫助我們重標識出數據集中多少可能的身份。圖2-3的直方圖顯示了每個可能的身份的數量。在大約32000行數據中,我們可以唯一標識出近7000行數據,并將約10000行數據縮小至兩個可能的身份。
因此,僅通過出生日期來重標識大多數個體是不太可行的。如果我們收集更多的信息,進一步縮小范圍呢?如果同時使用出生日期和郵政編碼作為輔助數據,則重標識效果會變得更好(見圖2-4)。實際上,我們基本能夠對數據集中的全部數據成功實施重標識攻擊。
當我們同時使用兩部分信息實施重標識攻擊時,可以重標識出所有的個體。這是一個非常令人驚訝的實驗結果,因為我們通常認為很多人的出生日期都相同,而很多人居住地所屬的郵政編碼也會相同。事實證明,組合使用這些信息會得到非常好的篩選效果。Latanya Sweeney的研究結果(見[1])表明,組合使用出生日期、性別、郵政編碼,可以唯一重標識出87%的美國公民。

圖2-3

圖2-4
下面來驗證一下是否真的能重標識出所有的個體。我們輸出每個身份可能關聯的數據記錄數量。

看來有兩個個體抵御了重標識攻擊。換句話說,在這個數據集中,只有兩個個體同時擁有相同的郵政編碼和出生日期。