官术网_书友最值得收藏!

1.1 數(shù)據(jù)隱私的產(chǎn)生

隱私作為一個概念,大約有150年的發(fā)展歷史。該概念的發(fā)展得益于以下兩個事實:一是伴隨著人類文明的不斷發(fā)展,人類對隱私的需求與渴望不斷增加;二是隨著信息技術(shù)的發(fā)展,隱私與新技術(shù)變革之間產(chǎn)生了新的沖突。本節(jié)從社會發(fā)展與數(shù)據(jù)發(fā)展兩個角度對隱私的發(fā)展進行介紹,說明數(shù)據(jù)隱私是如何在社會與技術(shù)的相互作用下產(chǎn)生的。

1.1.1 社會發(fā)展視角下的隱私

根據(jù)隱私發(fā)展的概念與技術(shù)的不同特征,我們將隱私的發(fā)展概括為3個時期,即萌芽期、形成期和發(fā)展期,分別對應(yīng)于5個階段。

1.隱私的萌芽期在紙質(zhì)媒體時代,對應(yīng)于媒體隱私階段

該階段的隱私問題主要指以私人生活為主要內(nèi)容的紙質(zhì)媒體信息的披露,需通過法律法規(guī)進行保護和約束。

在19世紀的紙質(zhì)媒體時代,以報紙為代表的新型媒體是最早披露個人隱私的信息技術(shù)。1873年,處于經(jīng)濟蕭條時期的美國,在“黃色新聞”思潮的影響下,報紙媒體刊登了諸多具有感官刺激性的低俗、隱私的新聞。該時期,美國律師Samuel Warren及其夫人舉辦的家宴和其女兒的私人婚禮照片被報紙公開。為強烈譴責該行為,實現(xiàn)保護個人隱私的訴求,美國律師Samuel Warren和Louis Brandeis于1890年在《哈佛法學(xué)評論》上發(fā)表了《隱私權(quán)》[1],至此,“隱私權(quán)”的概念被明確提出。雖然當時該文章未得到廣泛關(guān)注,但其后的幾十年間,隱私相關(guān)法案日益增多,如美國1974年制定了《聯(lián)邦隱私權(quán)法》,歐盟1950年出臺了《歐洲保障人權(quán)和基本自由公約》。

2.隱私的形成期在計算機時代,對應(yīng)于計算機隱私階段

在該階段,隱私數(shù)據(jù)以企業(yè)計算機內(nèi)存儲的、數(shù)據(jù)量有限的、結(jié)構(gòu)規(guī)范化的數(shù)據(jù)為主,隱私問題主要來源于對企業(yè)數(shù)據(jù)庫中數(shù)據(jù)的攻擊與竊取,并以密碼學(xué)技術(shù)為主要保護途徑。

在20世紀60年代,即計算機時代,信息技術(shù)的革新使得大型計算機開始挑戰(zhàn)人們對隱私的傳統(tǒng)認知。該階段,隨著計算機的出現(xiàn),以及文件管理系統(tǒng)、數(shù)據(jù)庫系統(tǒng)等技術(shù)的發(fā)展,大量的企業(yè)數(shù)據(jù)被存儲和使用。該時期,美國聯(lián)邦政府投入了大量資金對相關(guān)技術(shù)進行研究,消費者信用局(Consumer Credit Bureaus)建立了包含上百萬個人財務(wù)信息的數(shù)據(jù)庫。大量與個人相關(guān)的、以企業(yè)為主體的數(shù)據(jù)的匯集,令人們開始擔憂這些計算機數(shù)據(jù)是否會被入侵或遭到泄露,從而威脅個人隱私。為抵御該威脅,現(xiàn)代密碼學(xué)技術(shù)發(fā)展起來,人們制定了數(shù)據(jù)加密標準(Data Encryption Standard,DES)[2]、高級加密標準(Advanced Encryption Standard,AES)[3]等密碼學(xué)標準,形成了公鑰密碼學(xué)[4],并基于此發(fā)展出了加密數(shù)據(jù)庫等技術(shù)。

3.隱私的發(fā)展期在信息技術(shù)快速發(fā)展的時代,包含三個階段

根據(jù)信息技術(shù)發(fā)展的特征,我們將發(fā)展期劃分為互聯(lián)網(wǎng)隱私、大數(shù)據(jù)隱私和人工智能隱私三個階段,分別對應(yīng)于互聯(lián)網(wǎng)時代、大數(shù)據(jù)時代和人工智能時代這三個技術(shù)發(fā)展時代。

(1)互聯(lián)網(wǎng)隱私階段

在該階段,個人數(shù)據(jù)而非企業(yè)數(shù)據(jù),成為數(shù)據(jù)發(fā)布中隱私保護的主要對象,主要通過k-匿名的技術(shù)進行保護。

在20世紀90年代,即互聯(lián)網(wǎng)時代,全球互聯(lián)網(wǎng)逐步形成。自2000年起,隨著互聯(lián)網(wǎng)用戶的增加,互聯(lián)網(wǎng)在現(xiàn)代日常與經(jīng)濟生活中發(fā)揮著日益重要的作用。在該背景下,用戶個人數(shù)據(jù)數(shù)量激增,基于這些個人數(shù)據(jù),數(shù)據(jù)挖掘等算法飛速發(fā)展,以發(fā)揮數(shù)據(jù)價值。數(shù)據(jù)的共享與開放成為科技進步的基礎(chǔ)條件,此時,對用戶個人隱私信息進行保護十分關(guān)鍵。

早期,人們僅通過對數(shù)據(jù)主體進行匿名以保護發(fā)布數(shù)據(jù)中的個人隱私,但這樣僅刪除用戶的唯一標識是不夠的。1997年,哈佛大學(xué)教授Latanya Sweeney從馬薩諸塞州保險委員會公布的、已刪除用戶標識符的患者數(shù)據(jù)中,通過將這些患者數(shù)據(jù)與該州的選民數(shù)據(jù)進行鏈接的方法,成功確認州長的身份,找到了其健康記錄,并研究發(fā)現(xiàn)87%的美國人擁有唯一的性別、出生日期和郵編三元組信息,可被唯一識別。該研究結(jié)果對以隱私為中心的政策制定產(chǎn)生了重大影響。1998年,Sweeney教授正式提出了k-匿名技術(shù)來保護發(fā)布數(shù)據(jù)中的隱私。k-匿名技術(shù)[5]基于數(shù)據(jù)中的敏感字段,將個人記錄隱藏在一組相似的記錄中來匿名數(shù)據(jù),從而大大降低個體被識別的可能性。在其后的近10年間,該隱私保護技術(shù)飛速發(fā)展。

(2)大數(shù)據(jù)隱私階段

在該階段,數(shù)據(jù)以海量的個人數(shù)據(jù)為主,隱私問題主要體現(xiàn)在大規(guī)模數(shù)據(jù)收集中的隱私泄露問題,主要通過差分隱私的技術(shù)進行隱私保護。

21世紀10年代,大數(shù)據(jù)技術(shù)飛速發(fā)展,云計算等框架獲得了廣泛應(yīng)用,我們進入了大數(shù)據(jù)時代。該階段個人數(shù)據(jù)的收集愈發(fā)頻繁與廣泛,隨之產(chǎn)生的海量數(shù)據(jù)對計算機數(shù)據(jù)處理的能力提出了新的要求。k-匿名技術(shù)對數(shù)據(jù)擾動的方式,會嚴重影響數(shù)據(jù)的可用性;同時,該技術(shù)幾經(jīng)演化,但仍被證明不能應(yīng)對背景知識攻擊。2006年,Netflix舉辦了一場預(yù)測算法比賽,并公開了匿名后的用戶電影評分的數(shù)據(jù)集,Netflix把數(shù)據(jù)中唯一識別用戶的信息抹去,但是來自得州大學(xué)奧斯汀分校的兩位研究人員通過關(guān)聯(lián)Netflix公開的數(shù)據(jù)和互聯(lián)網(wǎng)電影數(shù)據(jù)庫(Internet Movie Database,IMDb)網(wǎng)站上公開的記錄成功識別出匿名后用戶的身份。

同年,微軟研究院的Cynthia Dwork提出了差分隱私的概念[6],對隱私泄露風險進行了嚴謹?shù)臄?shù)學(xué)證明和定量化表示。該技術(shù)可以抵御任意的背景知識攻擊,它通過對原始數(shù)據(jù)進行擾動保護數(shù)據(jù)隱私,同時通過保證最終的數(shù)據(jù)分布幾乎無改變來保證數(shù)據(jù)可用性。而后,2014年谷歌的úlfar Erlingsson提出了本地化差分隱私框架與方案[7],將數(shù)據(jù)擾動的操作移至用戶端,從而避免傳統(tǒng)差分隱私算法對可信第三方的依賴。該項技術(shù)在谷歌、蘋果、微軟等公司獲得了廣泛的應(yīng)用,并引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

(3)人工智能隱私階段

在該階段,數(shù)據(jù)以維度更加豐富、粒度更加細膩、體量更加龐大的個人與社會數(shù)據(jù)為主,數(shù)據(jù)隱私問題、算法公平問題、數(shù)據(jù)透明問題是當下廣義隱私上的主要問題,混合的隱私保護技術(shù)應(yīng)是主要研究手段。

當前,隨著5G與物聯(lián)網(wǎng)等新基建的發(fā)展,人工智能、萬物互聯(lián)成為社會發(fā)展的主要趨勢。在該階段,數(shù)據(jù)將不再局限于之前的個人數(shù)據(jù),通過個人移動設(shè)備、個人穿戴設(shè)備、城市傳感器等,海量、異構(gòu)、多維度的個人與社會數(shù)據(jù)源源不斷地產(chǎn)生,對數(shù)據(jù)隱私保護提出了新的挑戰(zhàn)。此時,數(shù)據(jù)的隱私也不局限于個人隱私信息的泄露問題,由數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)算法的公平問題,數(shù)據(jù)收集、使用、共享、流通過程中的透明化問題,在該階段都更加顯著[8]

不得不注意的是,當下密碼學(xué)技術(shù)、k-匿名技術(shù)、差分隱私技術(shù)已逐步發(fā)展成熟,每種技術(shù)的優(yōu)缺點都十分清晰。密碼學(xué)技術(shù)需在數(shù)據(jù)隱私性與計算通信效率之間進行取舍,k-匿名技術(shù)和差分隱私技術(shù)則需在數(shù)據(jù)隱私性和可用性之間進行平衡。因此,如何根據(jù)實際問題,將多種隱私保護進行混合,如將密碼學(xué)技術(shù)和差分隱私技術(shù)進行混合,揚長避短,以實現(xiàn)既定的隱私保護目標應(yīng)為當前的主要手段。

基于上述內(nèi)容,我們對各階段的隱私的發(fā)展進行總結(jié),如表1.1所示。通過對比,我們可發(fā)現(xiàn),隱私發(fā)展的進程隨著技術(shù)的進步在不斷加速。近5年來,公眾和政府對隱私的關(guān)注度不斷上升,對隱私問題的研究進入前所未有的黃金時代。通過分析知網(wǎng)上主題為“隱私”的論文數(shù)隨年份的變化(如圖1.1所示),我們印證了該結(jié)論。

表1.1 隱私發(fā)展的階段及特征

圖1.1 知網(wǎng)上主題為“隱私”的論文數(shù)隨年份的變化(截至2021年12月13日)

1.1.2 數(shù)據(jù)發(fā)展視角下的隱私

從社會發(fā)展視角下的隱私我們可以發(fā)現(xiàn),隱私的產(chǎn)生本質(zhì)上隨著數(shù)據(jù)的產(chǎn)生方式及特征的不斷轉(zhuǎn)變而演化。由此,本節(jié)將從數(shù)據(jù)的角度重新審視隱私的發(fā)展過程。我們可以發(fā)現(xiàn),隱私問題在數(shù)據(jù)發(fā)展的初期并不顯著,它隨著數(shù)據(jù)體量與維度的增加而逐漸凸顯。我們根據(jù)數(shù)據(jù)的產(chǎn)生方式與特征的不同將該發(fā)展過程劃分為4個階段。

1.計算機發(fā)展初期

在20世紀40~60年代,數(shù)據(jù)通過自然觀察、科學(xué)實驗、統(tǒng)計調(diào)研等方式人為生成,多為數(shù)值型數(shù)據(jù),借助計算機完成復(fù)雜的科學(xué)運算,促進自然發(fā)現(xiàn)、社會統(tǒng)計等學(xué)科的發(fā)展。同時,伴隨著計算機存儲設(shè)備的發(fā)展,出現(xiàn)了文件系統(tǒng)、批處理等技術(shù),從而對數(shù)據(jù)進行管理。此時的數(shù)據(jù)面臨的主要問題更多集中于數(shù)據(jù)的正確性、共享性等應(yīng)用問題,并不注重隱私問題。

2.傳統(tǒng)數(shù)據(jù)庫時代

在20世紀60~90年代,數(shù)據(jù)在企業(yè)等運營式系統(tǒng)的運營過程中由數(shù)據(jù)源被動產(chǎn)生,數(shù)據(jù)采集成本較高,故多以企業(yè)數(shù)據(jù)為主。此時數(shù)據(jù)結(jié)構(gòu)規(guī)范有序,數(shù)據(jù)量相對有限,人們對數(shù)據(jù)的認識停留在“管理數(shù)據(jù)”的階段,發(fā)展出數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集成等技術(shù)。該階段,數(shù)據(jù)面臨的主要問題是安全問題,仍與隱私問題有著本質(zhì)的區(qū)別。數(shù)據(jù)安全是為了保護企業(yè)數(shù)據(jù)不被攻擊者非法入侵、獲取,確保結(jié)果的正確性和完整性。

3.大數(shù)據(jù)時代

20世紀90年代至今,數(shù)據(jù)采集愈發(fā)廉價,數(shù)據(jù)在個人移動設(shè)備、穿戴式設(shè)備、傳感設(shè)備上源源不斷地主動產(chǎn)生,數(shù)據(jù)結(jié)構(gòu)復(fù)雜異構(gòu),數(shù)據(jù)加速增長。此時的數(shù)據(jù)主要以個人數(shù)據(jù)為主,具有海量的數(shù)據(jù)集特性,人們開始“理解數(shù)據(jù)”,并由此發(fā)展出基于數(shù)據(jù)驅(qū)動的人工智能、數(shù)據(jù)挖掘等技術(shù)。與此前借助符號進行邏輯推理不同,該階段技術(shù)發(fā)展的本質(zhì)是海量數(shù)據(jù)驅(qū)動的結(jié)果,產(chǎn)生了與此前截然不同的倫理問題。一方面,數(shù)據(jù)作為驅(qū)動算法的“燃料”,數(shù)據(jù)壟斷與隱私問題層出不窮;另一方面,非規(guī)則的算法決策與黑盒模型使決策可解釋、公平問題備受關(guān)注。在這些問題中,隱私問題尤為凸顯。也是在該階段,隱私問題逐步成為大眾關(guān)注的重要議題。

4.5G與萬物互聯(lián)時代

在我們即將步入的工業(yè)4.0時代,數(shù)據(jù)量將會爆炸式增長,數(shù)據(jù)描述社會的粒度將會更加細膩,相應(yīng)地,數(shù)據(jù)應(yīng)用的過程中隱私、公平等倫理問題將更加嚴峻。此時,需要我們從“敬畏數(shù)據(jù)”的角度探索數(shù)據(jù)價值與數(shù)據(jù)倫理的雙重實現(xiàn)。我們不能一味地追求數(shù)據(jù)價值的最大化,也不能為了隱私拒絕數(shù)據(jù)的應(yīng)用。我們應(yīng)考慮隱私問題的獨特性,考慮隱私問題與壟斷、公平等其他倫理問題的相互影響,從數(shù)據(jù)生態(tài)的角度思考該問題的解決之道。

主站蜘蛛池模板: 丹凤县| 克东县| 江永县| 馆陶县| 平度市| 华宁县| 峨山| 准格尔旗| 类乌齐县| 张北县| 靖州| 西充县| 宜城市| 屏南县| 会东县| 房山区| 陇南市| 藁城市| 涞源县| SHOW| 永平县| 邵阳市| 西畴县| 灵台县| 越西县| 巴青县| 富源县| 泉州市| 周口市| 东乌| 庆元县| 兴城市| 昌吉市| 淳安县| 临泽县| 天门市| 儋州市| 屯门区| 昆山市| 高台县| 桓仁|