Preface
前言
人工智能和大數據技術使我們對未來的社會產生了很多期待,但同時這些高端技術的發展瓶頸也越來越清晰。我們知道,AI的力量來自大數據,但我們在日常工作和生活中所面臨的實際場景往往只有小數據。在法律這個應用領域,獲取一個完整的案例樣本往往需要很多的時間和資源:每一個案子的處理要經過很多步驟,從立案到結案可能需要幾年的時間;毫無疑問,如此積累起來的完整案件樣本數量非常少。金融領域也是如此,比如積累的洗錢案例數量可能非常有限,在風控建模中,如果把反洗錢案例看成正樣例,那么這樣的正樣例數據非常珍貴。在醫療領域,CT胸片的自動檢驗和診斷需要專業醫生來標注數據,但醫生的時間十分寶貴,因此對于罕見疾病,能獲得的病例數據更是少之又少。這些例子說明,在現實中能獲取的往往是小數據。如果把這個情況延展開來,我們會看到,在人工智能的主戰場,如無人車、智能終端等,每一臺設備上的數據也是有限的,每一個數據集都不足以建立可用的機器學習模型。
那么,我們可不可以把這些數據匯聚起來形成大數據呢?長久以來,工業界聚集大數據的辦法就是在云端上傳眾多終端的數據集,形成大數據。我們熟知的包括圖像訓練數據集如ImageNet,語音訓練數據集如Common Voice,自然語言訓練數據集如bAbi等。應該說,用這種方式獲取的大數據為人工智能的發展開創了很好的先例。
但是,現代社會不僅要有強大的技術,同時對技術的社會責任也有嚴格的限定。隨著人工智能和大數據技術的不斷發展,社會和政府也對數據的權益和保護有了逐步完善的監管法律法規。例如,歐盟在2018年施行了《通用數據保護條例》(General Data Protection Regulation,簡稱GDPR),我國對數據的保護也日趨完善,從國家機關到地方政府,各行各業的數據隱私保護立法日趨完善。所以,一方面人工智能和大數據技術為人類的發展提供了光明的前景和技術保障;另一方面,人類自身的權益保護又限制了數據按照粗放方式進行簡單的匯聚。那么,如何在這兩者之間找到平衡點,繼續推動技術向前發展呢?
在這里,我們給大家講一個小故事。2018年,本書的作者之一楊強教授在瑞典舉辦的國際人工智能大會(IJCAI)上遇到了瑞典的一位工業部長,進行了一些問答交流。對于GDPR會不會限制歐洲人工智能的成長這一問題,這位部長的回答是:雖然看上去GDPR會限制人工智能的發展,但是他希望歐洲公司有提出一些滿足GDPR的人工智能方案的理想。今天看來,這個想法是非常好的,因為如果真的做到了,人工智能的技術就能夠螺旋式上升,掌握這一技術的人就可以走在世界的前列。
我們看到,隨著數字經濟的發展,數字經濟也演變成“數據經濟”,其特點是數據本身成為了重要的生產要素,而數據的交易和流通要滿足數據監管及保護數據隱私的要求。這個趨勢在全世界范圍內將形成一個新的數據化潮流,因為不管是政府還是社會,人們對數據隱私的安全保護都是非常在意的。今天,一項新技術正在中國蓬勃發展,這項技術就是聯邦學習。
聯邦學習的技術產生于上述的社會和法律背景下。聯邦學習的目的是,不管在面對單個消費者的to C場景,還是面對企業或機構的to B場景,都希望各自的數據可以不出本地,數據集不為其他人所有,保護用戶隱私和數據權益。在這一要求下,數據的價值可以同時得到充分體現。機器學習模型在極小損失的前提下,能夠達到和傳統數據匯聚幾乎一樣的效果,并且這個模型能夠為所有參與者使用。
不久前,本書的作者團隊出版了世界第一本聯邦學習的書籍,包括中文和英文版。在該書中,我們做了一個形象的比喻來描述聯邦學習的思想:把聯邦學習訓練模型的過程類比成喂養一只羊。過去的做法是把草放到羊圈里喂養,就像把數據聚合到中心服務器來建立機器學習模型。但出于隱私利益的考慮,草不能離開本地。為了滿足這一要求,且讓羊持續得到喂養,我們可以帶著羊去訪問各個草場,同時保證在這個過程中不泄露隱私。這樣,羊可以長大,隱私也可以受到保護。
聯邦學習就是采用上面這種分布式隱私計算的思想:在多方合作建模過程中,各方不交換原始數據;在建立模型的過程中,各方可以交換加密后的參數,以保護用戶隱私。這就需要我們做幾個層面的研究和工程實現,包括分布式建模、安全合規、抵御攻擊、網絡設計、計算效率、加密算法、邊緣計算、生態建設和激勵機制等。所以,聯邦學習是一個多學科交融的領域,也特別適合跨學科研究。
關于聯邦學習,我們常說的有兩句話。第一句話是“數據不動模型動”,這是聯邦學習的核心,讓模型在不同機構之間、端和云之間進行溝通交流。它產生的效果是什么?就是第二句話——“數據可用不可見”。這里所說的不可見,是別人看不見你的數據,你也看不見別人的數據,即數據和模型都保留在本地,建模的過程也保證了數據的安全。
本書在闡述聯邦學習原理的同時,著重描述了聯邦學習的落地應用實踐,以聯邦學習開源平臺FATE為基礎,涵蓋多個領域。既可以為工業實踐者提供很好的應用案例,也可以手把手地為初學者引路。讀者可以在粗通人工智能及機器學習基本知識的前提下,在本書指引下深入了解人工智能項目落地實踐的過程。
總之,我們建立的人工智能體系離不開人的因素,而保護人的隱私是當下人工智能發展中特別重要的一個方面。這也是從政府到個人、企業及社會的要求。另外,人工智能的發展也需要保護模型的安全,保證用戶的隱私不被泄露,使用戶的權益得到保障。我們衷心希望讀者朋友們能夠從本書中窺見人工智能的未來,并動手建立負責任的、可信賴的、安全的人工智能和大數據的社會。
本書的部分案例章節有對應的代碼實現,讀者可以在GitHub網站上查找本書配套的資源。其中,第3章、第10章和第15章的案例使用了Python實現;第4章、第5章、第8章和第9章的案例使用了聯邦學習平臺FATE實現;第11章、第12章和第13章是實際的落地案例,由于簽署了保密協議,我們不會對外公開這部分的代碼細節。書中所涉鏈接,讀者可以掃封底二維碼獲取。
基于本書和《聯邦學習》一書的內容,本書作者楊強教授、劉洋老師在香港科技大學開設世界上首批“聯邦學習”的全日制研究生課程(2021年春季學期啟動)。相關教學資源(鏈接0-1),包括視頻、課件等,已部分對外開放。
聯邦學習目前正處在高速發展的階段:一方面,聯邦學習的理論知識仍在不斷完善和豐富;另一方面,隨著聯邦學習的應用越來越廣泛,很多新的挑戰和新的解決方案也會陸續產生。因此,雖然本書力求在理論和實踐上都能兼顧最新的發展趨勢,但難免有遺漏或者不完善的地方。歡迎讀者提出寶貴意見,幫助我們不斷完善本書的內容。
楊強,黃安埠,劉洋,陳天健
2021年3月,中國,深圳