官术网_书友最值得收藏!

3.1 線性模型的聯邦學習實現方式

在介紹聯邦學習實現方式之前,快速回顧一下線性模型。假設示例樣本img包含img個特征,即imgimg表示第img個特征上img的值。線性模型就是利用不同特征的線性組合來得到一個預測函數,即

(3-1-1)

一般用向量形式寫成

(3-1-2)

式中,img。在確定了權重imgimg后,就能夠得到模型。此外,img與特征的重要性有關,在特征標準化后可直接表征特征的重要性。所以,線性模型的可解釋性比較好,在應用中受到廣泛歡迎。下面再具體介紹幾種經典的線性模型。

給定數據集img。式中,imgimg?!熬€性回歸”希望學習出一個線性模型來擬合真實輸出值,當特征img時,就是“一元線性回歸”。更一般的情形是img大于1,此時我們試圖學得

(3-1-3)

這被稱為“多元線性回歸”。式中,imgimg的值一般利用最小二乘法進行估計,具體計算過程可以參考文獻[41]。記imgimg,令imgimg按縱向排列組成的矩陣。當img矩陣滿足滿秩或正定時,最終得到的多元線性回歸模型為

(3-1-4)

img的列數比行數多,img不是滿秩矩陣時,最小二乘意義下的解不唯一。此時需要修改求解的問題來保證解的唯一性。最常見的解決方法是根據對解應滿足性質的先驗知識加入正則化項。

剛剛介紹了如何用線性模型來做回歸分析,而在分類問題中,只需將實際值img和線性模型的預測值img聯系起來。具體到二分類問題,它的實際值img,而模型的預測值img是實數值,所以這里的實數值img需要變換成0或1。而對數概率函數img就是這樣一種能夠將img值變換成0和1之間的img值的函數。將img代入對數概率函數,得到

(3-1-5)

可變化為

(3-1-6)

這樣得到了“邏輯回歸”模型。利用極大似然估計的思想,通過極大化似然比,就可以得到邏輯回歸模型中的參數估計。

不過當img表示事件發生次數時,這類計數變量一般只能取不連續的非負整數,無法作為一般線性模型的因變量。所以,在針對計數變量時,往往使用泊松回歸模型。通常先假定發生次數img滿足泊松分布,接著再學習得到一個泊松回歸模型。假設事件發生次數Y是一個只取非負整數的隨機變量,引入一個參數img,令img的概率為

(3-1-7)

式中,img={0,1,2},Y的分布就是泊松分布。參數img大于0,其既等于該分布的均值,又等于該分布的方差。在線性模型中,假設img,通過極大似然估計建立的模型就是泊松回歸模型,其中img是特征img對應的回歸系數。

在介紹完上述線性模型之后,我們將介紹如何在不泄露各參與方數據的前提下,基于分布式數據訓練聯邦線性模型。首先,依據數據在不同參與方的分布形式,聯邦學習分為橫向聯邦學習和縱向聯邦學習兩種典型場景。由于在實際業務中,企業更需要在橫向聯邦學習或縱向聯邦學習的環境下實現聯合建模,所以下面就以這幾種線性模型為例分別介紹在橫向聯邦學習和縱向聯邦學習環境下聯合建模的實現方式。

主站蜘蛛池模板: 舞阳县| 萝北县| 波密县| 固原市| 福海县| 芮城县| 富川| 海阳市| 安仁县| 康马县| 石家庄市| 长岭县| 丰原市| 阳春市| 阳曲县| 泰州市| 尉犁县| 广安市| 浦北县| 海盐县| 福建省| 海南省| 蕲春县| 慈溪市| 柳江县| 赤壁市| 巢湖市| 迭部县| 二连浩特市| 三河市| 滨海县| 八宿县| 门源| 布拖县| 边坝县| 工布江达县| 巩留县| 石城县| 建阳市| 博乐市| 乡城县|