- 數據隱私與數據治理:概念與技術
- 孟小峰等編著
- 4439字
- 2024-04-12 19:22:55
1.3 數據隱私面臨的挑戰
基于上述對隱私的發展及對現有隱私技術的認識,下面對當前社會所面臨的隱私挑戰進行概括。依據面向對象的不同,我們將當下的隱私保護問題歸類為大數據的隱私保護問題、人工智能的隱私保護問題和數據要素的數據治理問題3類。本書后續主體內容也將圍繞這3個主題分篇展開。
1.3.1 大數據隱私挑戰
隨著各類物聯網設施的普及,各領域數字化進程加速,移動互聯網服務提供商基于其提供的各類服務,主動或被動地收集了大量用戶數據。海量的用戶數據,加之大數據分析和挖掘技術,使服務提供商掌握了用戶方方面面的個人信息并可將其應用于各類商業活動,如精準廣告投放和業務營銷。同時,大規模數據的收集、存儲和分析等環節都存在數據安全和隱私隱患。盡管數據收集和分析是為了面向用戶提供更優質的服務,但在其過程中產生的用戶隱私問題嚴重影響了個人的生活和工作,如垃圾郵件、精準廣告和推銷電話等。
基于上述背景,我們對大數據時代的隱私問題進行總結,將其歸類為以下三個科學問題。
1.大規模數據收集問題
隨著網絡覆蓋程度日益提升,攝像頭、智能家居、移動設備等智能設備大面積普及,大規模數據通過被動、主動和自動方式被收集。這些數據往往包含大量的用戶隱私信息,如醫療就醫情況、購物情況、網站搜索歷史、個人移動通信記錄、出行和位置軌跡等。然而,作為數據生產者,用戶不知道哪些數據被收集、被誰收集、數據被收集后會流向何處,以及被收集的數據作何使用,用戶失去了對自身數據的掌握權,個人隱私泄露防不勝防。
2.大規模數據監視問題
大規模數據收集導致大規模數據監視,例如購物、社交和出行等數據被各大公司掌握。同時,各個數據服務公司會利用這些數據進行用戶畫像,以便進行精準的數據分析與營銷。在典型用戶畫像的標簽體系中,標簽數量一般能達到一百多個,而像阿里巴巴、京東等擁有海量用戶數據的互聯網巨頭,其畫像標簽甚至達到了上千個。這些標簽不僅能以較高的準確率刻畫出一個用戶的基本人口信息,更包括生理、心理、文化、身份等信息,幾乎是對一個自然人各種社會屬性的全覆蓋。雖然該技術在很大程度上改變了傳統的工作模式,大大提高了工作效率,尤其是個性化推薦的精準度,但也對個人隱私安全構成了極大威脅。
3.大規模數據操縱問題
由于數據收集、處理、流通及使用過程的不透明性,用戶失去對其自身數據的掌握權,大規模數據操縱的問題隨即產生。數據服務提供商可根據數據分析結果,如用戶畫像等,從事最大化商業利潤的行為。雖然目前已有法律法規嚴令禁止此類數據操作與濫用的行為,但由于監管措施不完善、數據處理流程不透明,我們仍深受數據操縱的影響,對于數據操縱下出現的隱私泄露、數據濫用等問題也難以溯源問責。
面對這樣的問題,傳統的以攻防策略為核心思想的被動式隱私保護技術已不再適用,針對全流程的主動式隱私保護技術勢在必行。我們應當能夠將數據隱私保護融入整個大數據隱私處理流程中去,全方位抵御上述隱私問題。差分隱私不依賴于任何背景知識的假設,可在攻擊者擁有最大背景知識的情況下保護用戶隱私,為解決上述問題創造了條件。為此,針對大數據的隱私保護問題,第二篇對差分隱私、本地化差分隱私及差分隱私與密碼學混合的技術進行了介紹,闡述其基礎知識,介紹其前沿技術。
1.3.2 人工智能隱私挑戰
大數據時代的到來帶動了機器學習技術突飛猛進的發展,使刷臉支付、輔助診斷、智能機器人等人工智能應用逐步走入大眾視野并深刻改變著人類的生產與生活方式,實現了經濟效益和社會效益的共贏。但這也令個人隱私保護面臨更大的風險與挑戰,主要表現在三個方面:首先,由不可靠的數據收集者導致的數據泄露事件頻發,不僅對企業造成重大經濟和信譽損失,也對國家安全和社會穩定構成極大威脅;其次,大量研究表明,攻擊者通過分析機器學習模型的輸出結果,能夠逆向推理出訓練模型或訓練數據個體的敏感信息;最后,數據隱私與數據共享的相悖導致互聯網領域下“數據孤島”問題的產生,形成壁壘森嚴、界限明晰的數據陣營,長此以往,數據壟斷局面愈盛,將不利于國家經濟體制深化改革。
針對人工智能中的隱私保護問題,我們從以下兩個方面進行討論,即以集中式架構為基礎的傳統機器學習和以分布式架構為基礎的聯邦學習。
1.傳統機器學習的隱私保護問題
要實現隱私保護的人工智能,除借助法律法規的約束外,更要求服務提供商必須以隱私保護為首要前提進行機器學習模型的設計、訓練與部署,保證數據中的個人敏感信息不會被未授權攻擊者直接或間接獲取。在傳統的機器學習訓練框架下,用戶數據首先被數據收集者集中收集并存儲在單機、集群或云端,此模式無論對模型訓練還是環境部署而言都方便可控,因此被廣泛應用于實際場景中。不過,大規模數據的集中收集存在嚴重的泄露隱患。對用戶而言,一旦數據被收集后,他們便很難再擁有對數據的控制權,其數據將被用于何處、如何使用,他們也不得而知。對數據收集者而言,一方面他們可能主動或被動地泄露用戶數據,造成直接隱私泄露;另一方面惡意攻擊者也可能利用逆向推理手段推測出模型或訓練數據中的敏感信息,從而造成間接隱私泄露。
2.聯邦學習的隱私保護問題
近年來,聯邦學習為解決在不共享數據的前提下進行機器學習的問題提供了新思路。聯邦學習下數據不需要集中存放,僅需在數據分散存儲的節點上訓練模型,服務器無法獲取原始數據,個人數據隱私得到有效的保護。在數據隱私與安全問題備受關注的今天,聯邦學習在避免直接隱私泄露、避免中心點數據受到攻擊等方面具備顯著優勢。此外,傳統的機器學習模型不能直接處理異構數據,利用聯邦學習技術,無須處理異構數據即可建立全局數據上的機器學習模型,既保護了數據隱私,又解決了數據異構問題。聯邦學習可應用在涉及個人敏感數據的機器學習任務中,如個人醫療數據、可穿戴設備數據、面部特征數據、個人資產數據等。然而,聯邦學習架構提供的隱私保護機制不足,在模型訓練階段和模型預測階段都可能導致數據隱私泄露。
不過,目前關于機器學習的隱私攻擊大多僅適用于特定條件,如僅在圖像識別任務中成功、不適用于復雜模型等。但隨著研究的逐步深入,這些攻擊將逐步威脅到更通用、更復雜的模型。要解決人工智能的隱私問題,一方面需借助法律法規的約束,另一方面必須從技術上將隱私保護融入機器學習模型的設計與訓練過程中,從根源上防止個人隱私被未授權人員直接或間接獲取,并以隱私保護為首要前提進行一切相關研究或應用。
在該背景下,無論對集中學習還是聯邦學習而言,其隱私保護算法設計均可分為兩條主線:以安全多方計算、同態加密為代表的加密方法和以差分隱私為代表的擾動方法。本書將在第三篇對該內容進行詳細的介紹。同時,我們在第三篇還兼顧了人工智能算法的公平問題,探討了人工智能算法的各個環節中公平問題的發生原因與解決方法。
1.3.3 數據治理挑戰
隨著信息經濟的發展,以大數據為代表的信息資源逐漸向生產要素的形態演進,數據逐步與其他要素一起融入經濟價值創造過程,對生產力發展產生深遠影響。2020年4月6日,中共中央、國務院發布《中共中央 國務院關于構建更加完善的要素市場化配置體制機制的意見》,將數據作為與土地、勞動力、資本、技術并列的生產要素,并提出加快培育數據要素市場。
然而,將數據作為生產要素,必須考慮其在大數據生態中的數據治理問題。在5G、物聯網這樣的新基建背景下,數據治理問題不局限于傳統的隱私問題,數據壟斷、決策公平、數據透明等問題也對數據作為生產要素發揮作用提出了新的挑戰。同時,這幾個問題在數據生態背景下相互作用、相互影響。例如,數據壟斷與數據隱私的解決存在相互促進的關系,數據壟斷的破除將有效阻止大量數據的匯集,從而降低挖掘、泄露數據隱私的風險;基于擾動技術的數據隱私保護會限制數據價值,從而限制壟斷數據的價值,遏制數據壟斷的增長。同時,我們也必須認識到,過度嚴格的數據隱私不利于數據壟斷和決策不公平現象的發現,如何兼顧上述問題,實現數據治理十分關鍵。由此,我們對該問題從數據要素市場、數據壟斷、數據公平和數據透明四個方面展開介紹。
1.數據要素市場
大數據時代下,數據已成為一個國家重要的基礎性戰略資源,并對生產、流通、分配、消費活動,以及經濟運行機制、社會生活方式和國家治理能力產生重要影響,為國家提升競爭力帶來了新機遇。隨著數據在經濟發展中起到越來越關鍵的作用,目前已將其列為一種與勞動力、資本、土地等傳統生產要素具有同等地位的新型生產要素,這意味著數據已成為維持企業生產經營活動所必須具備的基本因素。數據要素主要包括互聯網應用、物聯網設備、企業和政府部門收集的數據等。隨著計算機處理能力和人工智能算法的日益強大,數據量越大,所能挖掘到的知識就越豐富,數據要素的價值就越大。實施數據資源的開放共享,不斷完善數據交易和數據流通等標準和措施,是深化數據要素市場化配置改革,促進數據要素自主有序流動的關鍵任務。
2.數據壟斷問題
隨著數據的累積,數據作為驅動人工智能等技術發展的重要資源,逐漸成為各科技公司爭奪的主要對象,不同科技企業在數據資源的儲備量上的差異也愈加明顯,數據壟斷逐漸形成,并催生了“堰塞湖”,各企業間的數據難以互通。孟小峰教授領導其團隊完成的《中國隱私風險指數分析報告》基于約3000萬用戶的App使用數據,對用戶權限數據的收集情況進行了揭示。其量化結果表明,10%的收集者獲取了99%的權限數據,形成了遠超傳統“二八定律”的數據壟斷。而2018—2020年的研究表明,該嚴峻形勢并沒有得到緩解,并且愈演愈烈。
3.數據公平問題
數據驅動的算法在人們的生產生活中廣泛應用,甚至參與了諸多權益攸關的決策。在該過程中,“大數據殺熟”等數據公平問題逐漸浮現并受到人們的關注。2021年8月公布的《中華人民共和國個人信息保護法》以立法的形式對數據公平問題加以規制,要求個人信息處理者利用個人信息進行自動化決策,應當保證決策的透明度和結果公平、公正。但如何對公平進行定義和度量、如何定位不公平的來源,以及如何在算法準確性與公平之間進行權衡目前仍未有定論,是該方向有待探索的重要問題。
4.數據透明問題
隱私、公平、壟斷等倫理問題產生的根本原因是大數據價值實現過程中的不透明性。當前數據的獲取、流通、共享、使用和決策過程都存在不透明性,用戶作為數據的生產者,對哪些數據被收集、被誰收集,以及被收集的數據流向何處、作何使用一無所知。人工智能服務的黑盒狀態進一步加劇了數據的隱私泄露、壟斷和決策結果的不公平。與此同時,與傳統的決策相比,由于傳統決策依賴“數據—信息—知識”的獲取,而人工智能由大數據直接驅動,數據錯誤與算法不透明都會使最終的決策結果不可信。數據透明問題已然成為包含隱私在內的諸多倫理問題中的關鍵一環。
上述問題既是獨立的數據倫理問題,也是將隱私問題置于數據生態中進行思考的關鍵問題。其中,數據透明將會成為射入人工智能黑箱的一道陽光,通過數據透明,我們可以實現對諸多數據倫理問題的可查、可感、可監控、可問責,從而從根本上應對上述問題。我們將在第四篇對這4個問題及其解決方案進行詳細的探討。
- 數據浪潮
- Word 2010中文版完全自學手冊
- 虛擬化與云計算
- Redis應用實例
- Neural Network Programming with TensorFlow
- Hadoop大數據實戰權威指南(第2版)
- 深度剖析Hadoop HDFS
- Python醫學數據分析入門
- Power BI商業數據分析完全自學教程
- 貫通SQL Server 2008數據庫系統開發
- The Natural Language Processing Workshop
- Mastering ROS for Robotics Programming(Second Edition)
- 大數據分析:R基礎及應用
- 智能與數據重構世界
- Unity for Architectural Visualization