- 聯邦學習實戰
- 楊強等
- 1953字
- 2021-05-19 18:06:58
1.4 聯邦學習的分類
在本節,我們給出聯邦學習的三大類別。設Di表示數據擁有者(參與方){Fi}的本地訓練數據,通常Di以矩陣的形式存在,Di的每一行表示一條訓練樣本數據,我們將樣本ID空間設為I;每一列表示一個具體的數據特征(feature),我們將特征空間設為X;同時,一些數據集還可能包含標簽數據(label),我們將標簽空間設為Y。特征空間X、標簽空間Y和樣本ID空間I組成了一個訓練數據集Di:(I,X,Y)。
根據不同的數據擁有者的數據特征空間X和樣本ID空間I的重疊關系不同,可以將聯邦學習劃分為下面三種類型[285]:橫向聯邦學習(Horizontal Federated Learning,HFL),縱向聯邦學習(Vertical Federated Learning,VFL),聯邦遷移學習(Federated Transfer Learning,FTL)。
如圖1-4所示,橫向聯邦學習適用于聯邦學習參與方的數據有重疊的數據特征的情況,即數據特征在參與方之間是對齊的,但是參與方擁有的數據樣本是不同的(或者可以理解為用戶的樣本ID集合不同)。它類似于在表格視圖中將數據進行水平劃分的情況。因此,橫向聯邦學習也被稱為樣本劃分的聯邦學習(sample-partitioned federated learning,或者example-partitioned federated learning[149])。

圖1-4 橫向聯邦學習(HFL),也被稱為樣本劃分的聯邦學習[285]
例如,有兩家服務于不同地區的銀行,它們雖然可能只有很少的重疊客戶,但是客戶的數據可能因為相似的商業模式而有相似的特征。也就是說,這兩家銀行的用戶群體集合重疊部分較小,但在數據特征維度上的重疊部分較大。這兩家銀行就可以通過橫向聯邦學習共同建立一個機器學習模型,更好地為客戶推薦理財產品[285,184]。我們將在本書的第三部分講述更多橫向聯邦學習的應用案例。
與橫向聯邦學習不同,縱向聯邦學習(圖1-5)適用于聯邦學習參與方的訓練數據有重疊的數據樣本,即參與方之間的數據樣本是對齊的,但是它們在數據特征上有所不同。它類似于在表格視圖中垂直劃分數據的情況。因此,我們也將縱向聯邦學習稱為特征劃分的聯邦學習(feature-partitioned federated learning[149])。

圖1-5 縱向聯邦學習(VFL),也被稱為特征劃分的聯邦學習[285]
例如,當兩家公司提供不同的服務(例如,一家銀行和一家電子商務公司),但在客戶群體上有著非常大的交集時,它們可以為得到一個更好的機器學習模型,在各自的不同數據特征空間上協作。在電子商務公司中我們要預測用戶對某一個物品的購買概率,但通常電子商務公司內部只有用戶的購買行為信息,而銀行等金融機構有用戶的資產數據,這部分特征信息能很好體現用戶的消費水平,如果能將這部分特征補充到我們的推薦建模中,無疑將極大提升模型預測的能力。同樣地,我們也將在本書的第三部分講述更多縱向聯邦學習的應用案例。
如圖1-6所示,聯邦遷移學習適用于參與方的數據樣本和數據特征都很少重疊的情況。以兩個參與方為例,其中一方代表源域(source domain),另一方代表目標域(target domain),我們在源域中學習特征的分布,將源域的特征信息遷移到目標域中,但在這一遷移過程中,本地數據同樣不會離開本地。

圖1-6 聯邦遷移學習(FTL)[285]
聯邦遷移學習特別適合處理異構數據的聯邦問題。例如,一家公司有豐富的圖片信息,另一家公司有文字等自然語言信息,圖片和文字屬于不同的特性維度空間。利用聯邦學習,可以在數據不出本地的前提下,在兩家公司之間通過知識遷移來學習到另一方的特征數據,擴充自身的特征信息,提升模型的性能效果[138,321]。
聯邦遷移學習同樣適用于金融場景中的風控建模。近年來,隨著監管機構大力支持和改善小微企業等實體經濟金融服務,推進降低小微企業融資成本,各金融機構也在不斷加大對于小微企業的金融服務及支持。但小微企業往往成立時間短,在信貸業務應用中存在數據稀缺、不全面、歷史信息沉淀不足等問題。這時,我們可以利用聯邦遷移學習,依據金融機構在中大型企業的信貸模型,將知識遷移到當前的小微企業中,幫助提升模型效果。
前面描述了聯邦學習按照特征和樣本空間不同而劃分的三種類別。但事實上,聯邦學習的主要目的是在保證數據不出本地的前提下,協調各客戶端共建模型,因此一項很重要的工作是,如何有效協調數據參與方協同構建模型。根據協調方式的不同,我們可以將它分類為集中式拓撲架構和對等網絡拓撲架構。
? 集中式拓撲。此種結構下,一般存在一個中心計算方(既可能是獨立于各參與方的服務器,也可能是某一個特定的參與方),該中心計算方承擔收集其他各方傳遞的模型參數信息并經過相應算法更新后返回各方的任務,它的優勢在于易于設計與實現。
? 對等網絡拓撲。此種結構下,不存在中心計算節點,各參與方在聯邦學習框架中的地位平等。由于集中式拓撲不可避免地要考慮中心計算方是否會泄露隱私或者遭受惡意攻擊,所以相比之下離散式拓撲更為安全。但這種拓撲設計的難度較大,必須平等對待各參與方且能夠對所有參與方有效更新模型并提升性能。
文獻[149]的2.1節對聯邦學習的拓撲結構進行了深入的分析。此外,本書的第16章詳細探討了聯邦學習的通信設計。讀者可以查閱相關的參考文獻或本書后面章節,獲取更多的原理細節。