- 聯邦學習原理與應用(全彩版)
- 向小佳等
- 1531字
- 2022-05-06 18:47:14
2.1 聯邦學習的分類
聯邦學習針對的是數據聯合建模問題,從前述聯邦學習的定義中也可以看到,在隱私保護下進行安全的數據聯合是聯邦學習要完成的最核心任務。在實際應用場景中,數據的分布有各自的特點,基于這些特點,可以將聯邦學習分成不同的類別,進而根據不同類別的特點設計不同的解決方案。所以,首先以數據分類的特點為依據對聯邦學習進行分類。
對于有多個數據擁有方的場景,每個數據擁有方各自持有數據集。將其表示成矩陣的形式,即矩陣的每一行表示一個樣本(常見的是用戶維度),每一列表示一個特征。在有監督學習場景中,某些數據集可能還包含標簽數據。我們將特征表示為
,將標簽表示為
,并使用
表示樣本。例如,在風控場景中,標簽
可能是用戶的信用表現,如貸款是否出現大于3天的逾期;在營銷字段中,標簽
可能是用戶的購買情況,如在電話營銷理財產品活動后客戶是否購買相應的理財產品;在教育領域中,標簽
可能是教學的效果反饋,如教學后學生的成績情況;在醫療場景中,標簽
可能是診療方案或者檢查診斷有效性情況,如血糖控制方案的相應治療情況等。樣本
、特征
、標簽
構成了完整的訓練數據集
。在現實的應用中,我們會遇到各種各樣的情況,特征、標簽及樣本在各個數據集上不完全相同。這里參考Yang等[40]提出的分類方法,以包含兩個數據擁有方的聯邦學習為例,數據分布可以分為以下三種情況。
● 兩個數據集的特征重疊部分較多,但樣本重疊部分較少。
● 兩個數據集的樣本重疊部分較多,但特征重疊部分較少。
● 兩個數據集的樣本和特征重疊部分都比較少。
數據擁有方的特征和樣本可能并不相同。我們根據特征和樣本中各方之間的數據分配方式,將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。圖2-1-1顯示了針對兩方場景的各種聯邦學習框架。
1.橫向聯邦學習
在數據集的特征重疊部分較多但樣本重疊部分較少的情況下,把數據集看成按橫向進行劃分,取出雙方特征相同而樣本不完全相同的那部分數據,進行橫向聯邦學習或基于樣本聯合的聯邦學習。例如,兩個不同的銀行面對的用戶由于受到地域等一系列因素影響,交集非常小。又如,2017年谷歌提出了用于Android手機模型更新的橫向聯邦學習解決方案。在該場景中,使用Android手機的單個用戶可以在本地更新模型參數,并將參數上傳到Android云,從而與其他數據擁有方一起訓練模型,共享模型訓練成果。
2.縱向聯邦學習
在數據集的樣本重疊部分較多但特征重疊部分較少的情況下,把數據集看成按縱向進行劃分,取出雙方樣本相同而特征不完全相同的那部分數據,進行縱向聯邦學習或基于特征聯合的聯邦學習。例如,有兩個業務內容不同的機構,一個是銀行,另一個是電子商務公司。它們的用戶交集較大,但銀行記錄的是用戶的財務信息與信貸表現,而電子商務公司則擁有用戶的瀏覽信息和購買情況,因此特征交集較小??v向聯邦學習就是將不同的特征在保護用戶隱私的狀態下,進行聯合學習以增強模型能力的聯邦學習。目前以邏輯回歸為代表的線性模型、樹形結構模型和神經網絡模型等機器學習模型,通過不同的技術路線,都已經有了縱向聯邦學習場景下的實現方案。

圖2-1-1 聯邦學習按數據分布形式的三種分類
3.聯邦遷移學習
聯邦遷移學習適用于兩個數據集不僅在樣本上而且在特征上都不太相同的情況。假設有兩個機構,一個是位于中國的銀行,另一個是位于美國的電子商務公司。由于地理位置的限制,兩個機構的用戶群體之間的交集很小。另外,由于業務不同,雙方的特征只有一小部分重疊。在這種情況下,可以應用遷移學習技術為聯邦之下的整個樣本和特征提供解決方案。這實際上是在使用有限的公共樣本集,學習兩方數據集共有特征上的共同表示,然后將其應用于僅具有一方特征的樣本上,進行標簽預測。聯邦遷移學習是現有聯邦學習系統的重要擴展,因為它可以解決的問題超出了現有的聯邦學習算法的范圍。