官术网_书友最值得收藏!

1.2 聯邦學習提出的背景

正是因為數據具有資產的屬性,政府、企業乃至個人,都越來越重視數據。但由于相互之間的競爭,各方的數據很難進行共享,導致數據呈現出割裂的狀態,影響了極度依賴數據的人工智能的發展。為了滿足日益增長的算法設計需要,越來越多的機構開始創建和開源大型的數據集項目。通過這些開源的數據集,一方面能夠為深度學習算法設計提供重要的數據“燃料”,另一方面提供了一個較為公平的算法對比基準。一個典型的案例是由斯坦福大學李飛飛團隊主持的、用于視覺對象識別軟件研究的大型圖像數據庫項目ImageNet[82],它通過眾包方式收集各類圖像數據集。得益于ImageNet的開源數據,我們見證了卷積神經網絡在最近10年的快速發展。

大型的數據集建設雖然對深度學習的發展起到了非常重要的作用,但在現實生活中,像ImageNet這樣規模的數據量通過人工標注并眾包上傳是很困難、甚至是無法實現的。這主要是由于,在現實生活中能夠獲得的數據,要么規模較小,要么缺少重要信息(如缺少標簽信息或者缺少部分特征數值)。這些數據通常不能直接使用,需要進行大量的預處理操作。例如,為了解決標簽缺失的問題,需要聘請大量的專家來進行標注,但這一過程無疑非常費時。因此,要獲取數量大且質量高的訓練數據通常非常困難。

此外,人們對于用戶隱私和數據安全的關注度也在不斷提高。用戶開始更加關注個人隱私信息的使用是否經過本人許可。許多互聯網企業由于泄露用戶數據而被重罰。2019年1月,法國一家監管機構對Google罰款5000萬歐元,指責Google在收集數據用于定向投放廣告時在征得用戶有效同意方面做得不夠[5]。2019年10月,愛爾蘭數據保護委員會(Data Protection Commission)結束了針對Facebook旗下WhatsApp可能違反歐盟數據隱私規定的調查,Facebook可能面臨高達數十億美元的罰款[11]。垃圾郵件制作者和不法數據交易也常常被曝光和處罰。這些現象使得即使在眾包收集數據的前提下,公開用戶個人數據也變得不可能(因為基于眾包的方法不能標注帶有用戶隱私的數據,更不能暴露標注者個人信息)。

在法律法規層面,立法機構和監管機構正在考慮出臺新的法律來規范數據的管理和使用。一個典型的例子便是2018年歐盟施行的《通用數據保護條例》(General Data Protection Regulation,GDPR)[27]。在美國,《加利福尼亞州消費者隱私法》(California Consumer Privacy Act,CCPA)于2020年1月在加利福尼亞州正式生效[26]。此外,我國的《中華人民共和國民法通則》[1]以及2017年開始實施的《中華人民共和國網絡安全法》[3]同樣對數據的收集和處理提出了嚴格的約束和控制。有關這些數據保護法律和法規的更加深入的解析,讀者可以參考Federated Learning[284]一書的附錄A。

由于前述各方面原因,使得我們過去使用的大數據正面臨著嚴重的數據割裂問題,并呈現出“數據孤島”的現狀,導致在進行人工智能模型訓練時無法有效利用各參與方的數據,阻礙了算法模型的效果提升。

為此,人們開始尋求一種方法,它不必將所有數據集中到一個中心存儲點就能夠訓練機器學習模型。一種可行的方法就是:每一個擁有數據源的機構利用自身的數據單獨訓練一個模型,之后各機構的模型彼此之間進行交互,最終通過模型聚合得到一個全局模型。為了確保用戶隱私和數據安全,各機構間交換模型信息的過程將會被精心設計,使得沒有機構能夠猜測到其他任何機構的隱私數據內容。同時,在構建全局模型時,其效果與數據源被整合在一起進行集中式訓練的效果幾乎一致,這便是聯邦機器學習(Federated Machine Learning,FML)提出的動機和核心思想。

聯邦學習強調的核心理念是:數據不動模型動,數據可用不可見。這可以保證數據在不出本地的前提下,各參與方之間協同構建訓練模型。一方面,數據不出本地可以很好地保護用戶的隱私和數據安全;另一方面,能充分利用各參與方的數據來協同訓練模型。假如把機器學習模型比作羊,把訓練數據比作草,傳統的集中式(或中心化)訓練方法需要到各個草場收集草來喂羊,這就像從不同的地方收集數據一樣。如前所述,這種訓練模式當前正面臨包括法律法規層面在內的、越來越多的現實挑戰,在未來將難以實現。聯邦學習的出現,則提供了一種新的思路,就是可以把羊送到各個草場吃草,而草不出本地,就像聯邦學習系統里的數據不出本地一樣。羊吃了各個草場的草,可以逐漸長大,就像聯邦模型在各參與方的數據集上都獲得訓練一樣,模型效果變得越來越好,如圖1-2所示。

圖1-2 羊吃草與聯邦學習,羊代表機器學習模型,不同的草場代表各自的訓練數據[284]

主站蜘蛛池模板: 拜泉县| 塔城市| 科技| 微山县| 盘锦市| 英山县| 炉霍县| 大连市| 津市市| 淄博市| 吴旗县| 沧州市| 镇平县| 贡嘎县| 阜新市| 天峨县| 长阳| 奈曼旗| 新乐市| 北票市| 郑州市| 永年县| 西畴县| 洪洞县| 五峰| 咸宁市| 湘阴县| 东港市| 丹寨县| 海林市| 中江县| 积石山| 辉南县| 新巴尔虎左旗| 洞口县| 广灵县| 永善县| 茂名市| 汽车| 醴陵市| 稷山县|