- 聯邦學習原理與算法
- 耿佳輝等編著
- 1107字
- 2023-11-02 20:25:10
1.1.1 聯邦學習的背景與發展
近年來興起的人工智能浪潮對醫療、金融、教育等領域產生了深遠的影響。從人臉識別到自動駕駛,再到已被普遍應用的精準營銷,人工智能正逐步影響生活的方方面面。回顧人工智能的發展,我們可以看到探索的道路曲折起伏。20世紀六七十年代,由于當時科技條件的約束,人工智能的發展走入低谷;20世紀90年代,互聯網技術的發展,加速了人工智能的創新研究。可以說每一次人工智能的發展都伴隨著研究方法的突破,深度學習是近年來機器學習技術突破的重要代表之一。近年來,隨著GPU、數據存儲等硬件技術的發展,移動端、傳感器等邊緣設備為深度學習提供了海量的數據,這些都促進了大數據、云計算、互聯網、物聯網等技術的突破。
在大數據時代,由于缺少監管和完善的法律約束,在商業利益的驅動下,很容易出現對用戶數據濫用的情況,一些隱私數據有意或者無意地被泄露,進而對用戶乃至整個國家安全造成難以估量的危害。比如著名的“臉書劍橋分析公司丑聞”(Facebook-Cambridge Analytica Data Scandal),英國咨詢公司劍橋分析在未經用戶同意的情況下,獲取數百萬臉書用戶的個人數據并用于廣告業務。出于對個人隱私數據的安全考慮,不少國家和地區頒布了隱私和數據保護的條例和法規。這些法規的出臺,明確了隱私保護的責任和義務,對個人隱私數據的保護起到一定的作用。除了法律條文的規定,技術層面的研究也隨之興起。聯邦學習是為了解決數據孤島問題而產生的,它支持在滿足用戶隱私保護、數據安全、數據保密和政府法規要求的前提下的聯合機器學習模型。
聯邦學習最早由谷歌興趣小組提出,他們首次將聯邦學習用于智能手機上的語言預測模型更新[1]。許多智能手機都存有私人數據,為了更新谷歌Gboard系統的輸入預測模型,即谷歌的自動輸入補全鍵盤系統,研究人員開發了一個聯邦學習系統,以便定期更新智能手機上的語言模型。谷歌的Gboard系統用戶能夠得到建議輸入查詢,以及用戶是否點擊了建議輸入的詞。谷歌的Gboard系統單詞預測模型可以不斷改善、優化,不僅基于單部智能手機存儲的數據,而且通過一種叫作聯邦平均(Federated Averaging, FedAvg)的技術[2],讓所有智能手機的數據都能被利用,使該模型得以不斷優化。而這一過程并不需要將智能手機上的數據傳輸到某個數據中心。也就是說,聯邦平均并不需要將數據從任何邊緣終端設備傳輸到一個中央服務器。通過聯邦學習,每臺移動設備(可以是智能手機或者平板計算機)上的模型將會被加密并上傳到云端。最終,所有加密的模型會被聚合到一個加密的全局模型中,因此云端的服務器也不能獲知每臺設備的數據或者模型。在云端聚合后的模型仍然是加密的(例如,使用同態加密),之后會被下載到所有的移動終端設備上。在上述過程中,用戶在每臺設備上的個人數據并不會傳給其他用戶,也不會上傳至云端。