- 聯邦學習原理與應用(全彩版)
- 向小佳等
- 1061字
- 2022-05-06 18:47:16
3.1 線性模型的聯邦學習實現方式
在介紹聯邦學習實現方式之前,快速回顧一下線性模型。假設示例樣本包含
個特征,即
,
表示第
個特征上
的值。線性模型就是利用不同特征的線性組合來得到一個預測函數,即

(3-1-1)
一般用向量形式寫成

(3-1-2)
式中,。在確定了權重
和
后,就能夠得到模型。此外,
與特征的重要性有關,在特征標準化后可直接表征特征的重要性。所以,線性模型的可解釋性比較好,在應用中受到廣泛歡迎。下面再具體介紹幾種經典的線性模型。
給定數據集。式中,
?!熬€性回歸”希望學習出一個線性模型來擬合真實輸出值,當特征
時,就是“一元線性回歸”。更一般的情形是
大于1,此時我們試圖學得

(3-1-3)
這被稱為“多元線性回歸”。式中,和
的值一般利用最小二乘法進行估計,具體計算過程可以參考文獻[41]。記
,
,令
為
按縱向排列組成的矩陣。當
矩陣滿足滿秩或正定時,最終得到的多元線性回歸模型為

(3-1-4)
當的列數比行數多,
不是滿秩矩陣時,最小二乘意義下的解不唯一。此時需要修改求解的問題來保證解的唯一性。最常見的解決方法是根據對解應滿足性質的先驗知識加入正則化項。
剛剛介紹了如何用線性模型來做回歸分析,而在分類問題中,只需將實際值和線性模型的預測值
聯系起來。具體到二分類問題,它的實際值
,而模型的預測值
是實數值,所以這里的實數值
需要變換成0或1。而對數概率函數
就是這樣一種能夠將
值變換成0和1之間的
值的函數。將
代入對數概率函數,得到

(3-1-5)
可變化為

(3-1-6)
這樣得到了“邏輯回歸”模型。利用極大似然估計的思想,通過極大化似然比,就可以得到邏輯回歸模型中的參數估計。
不過當表示事件發生次數時,這類計數變量一般只能取不連續的非負整數,無法作為一般線性模型的因變量。所以,在針對計數變量時,往往使用泊松回歸模型。通常先假定發生次數
滿足泊松分布,接著再學習得到一個泊松回歸模型。假設事件發生次數Y是一個只取非負整數的隨機變量,引入一個參數
,令
的概率為

(3-1-7)
式中,={0,1,2},Y的分布就是泊松分布。參數
大于0,其既等于該分布的均值,又等于該分布的方差。在線性模型中,假設
,通過極大似然估計建立的模型就是泊松回歸模型,其中
是特征
對應的回歸系數。
在介紹完上述線性模型之后,我們將介紹如何在不泄露各參與方數據的前提下,基于分布式數據訓練聯邦線性模型。首先,依據數據在不同參與方的分布形式,聯邦學習分為橫向聯邦學習和縱向聯邦學習兩種典型場景。由于在實際業務中,企業更需要在橫向聯邦學習或縱向聯邦學習的環境下實現聯合建模,所以下面就以這幾種線性模型為例分別介紹在橫向聯邦學習和縱向聯邦學習環境下聯合建模的實現方式。