- 聯邦學習原理與應用(全彩版)
- 向小佳等
- 1513字
- 2022-05-06 18:47:21
4.1 信息推薦與推薦系統
隨著移動互聯網的普及和興起,我們已經被各種信息流所“淹沒”,從衣、食、住、行到視頻和簡訊,互聯網從來沒有像今天這樣影響著我們的生活。與此同時,在浩如煙海的信息流中,真正獲取對自身有用和感興趣的內容卻變得更困難。推薦系統就像一個信息漏斗,通過融合、摘要和篩選,最終過濾出“價值信息”來緩解信息過載的問題。在這背后是“用戶行為”“物品信息”,以及一系列復雜的推薦算法和策略。它們共同組成了推薦系統。
推薦系統的主要目標就是將用戶與有限的物品連接起來,在現在的推薦實踐過程中主要分為兩個階段:召回和排序。在一般的推薦場景下,待推薦物品庫的物品數量非常巨大,達到了千萬件級別甚至更多,但是用戶所關注的往往只集中在其中一小部分。召回就是根據用戶和物品的各自特征,在全量物品庫中,先粗篩一遍可能滿足用戶潛在需求的物品。之后,再進入推薦的第二步—排序。這部分物品的量級一般就是百十件級別。排序的主要目標是將與用戶興趣匹配度高的物品盡可能地展現在靠前和顯眼的位置,進一步提高用戶體驗。具體到模型層面,比較常用的幾種推薦模型如下。
1.基于內容的推薦模型
基于內容的推薦模型是智能推薦系統中最早流行的推薦模型,主要根據用戶歷史上喜歡的物品的屬性特征,找到與其具有相似特征信息的更多物品進行匹配,再按照一定的順序推給用戶。例如,在文本推薦中,根據一些文本內容抽取出用戶感興趣的文章的關鍵詞,如“融合算法、深度學習、推薦系統”,然后根據關鍵詞權重計算其他文章內容與其文本的相似度,選取擁有相近內容的文章推薦給用戶(如關于推薦系統的經典模型“Wide & Deep”)。
2.基于協同過濾的推薦模型
協同過濾,顧名思義就是利用“物以類聚,人以群分”的思想,充分利用集體智慧,不做過多物品本身的特征比較,轉而關注用戶與物品的選擇關系。基于協同過濾的推薦根據當前用戶的歷史選擇,找到其他有著相似歷史選擇的用戶(即協同對象),然后將協同對象選過但當前用戶還未選過的其他物品推薦給他。舉例來說,如果已經知道當前用戶看過《金剛狼》《雷神》《綠巨人》《美國隊長》這些電影,我們找到也看過這些電影的其他用戶,而且發現他們大多還看過《海王》,那么當前用戶估計也會想看《海王》。
3.混合推薦模型
混合推薦就是融合協同過濾和內容屬性的推薦,而且在實際的工業系統中兩者通常是混用的,尤其隨著深度學習技術在推薦系統中廣泛應用,多維度信息結合的特征工程變得容易。與單純依賴用戶行為的基于協同過濾的推薦相比,混合推薦根據“上下文”信息抽取出用戶屬性特征,增加了信息量,可以有效地提高推薦質量,而且可以在一定程度上緩解“冷啟動”問題。例如,在基于協同過濾的推薦中,新用戶即使沒有歷史行為,我們也可以根據人口統計學特征聚類將其分到相應的類中,然后根據最鄰近客群的歷史行為進行新用戶的物品推薦。
任何推薦模型都離不開對用戶信息的搜集,既包括用戶的人口統計學信息,也包括用戶的行為軌跡。當我們正在享受推薦系統帶來的便利時,推薦系統也同時記錄著我們在生活中的各種行為。這種記錄越詳細,推薦系統的個性化表現就越好。這就形成了用戶隱私保護與便利性之間的矛盾,而且在這種矛盾產生的時候,我們首先要保護的無疑是用戶的隱私數據。那么是否可以在保證用戶隱私不泄露、不出域的情況下,進行推薦模型的訓練呢?聯邦學習提供了一個可行的方向,可以讓不同參與方各自的“用戶”“物品”,以及“上下文”信息數據根據整體模型框架,在本地完成各自的訓練任務,再通過密碼學相關算法得到加密后的全局模型指導各模型參與方。為了能夠更好地理解聯邦推薦系統,我們首先要了解在推薦場景下用到的兩種算法:矩陣分解(Matrix Factorization,MF)和因子分解機(Factorization Machine,FM)。