- 這就是推薦系統:核心技術原理與企業應用
- 胡瀾濤等
- 1115字
- 2023-12-12 19:09:41
推薦序
隨著移動互聯網的不斷發展和5G的普及,信息的視頻化呈現出了前所未有的發展速度,不僅是抖音、快手、小紅書等,就連很多工具類App都把視頻作為一種基礎的信息交換格式。而推薦系統作為信息過濾的重要產品和技術手段,近十年來發展迅速,特別是深度學習與推薦系統的結合,不論是工業界還是學術界都涌現出非常多的新算法和實踐。初學者接觸推薦系統很容易被復雜的算法帶偏,甚至以為其系統中最重要的就是模型表達能力的強弱(特征容量),而在實際的工業級推薦系統中涉及大量的在/離線系統架構、數據信號與機器學習系統的反饋鏈路,以及與人的經驗知識的結合方式。
真實的線上推薦系統不僅涉及召回、粗排、精排、重排(在本書中,“重排”等同于“重排序”)這些階段,而且涉及內容理解、用戶畫像、AB實驗平臺、Session上下文管理、創作者生態扶持、流量運營操作平臺等,這些子系統在同類書中是比較少涉及的,而模型技術的演進通常是筆墨最重的部分。以內容理解為例,給每一個內容打上標簽,或者通過無監督學習的方式得到一個向量表達,這兩種不同的形態實際上都有用處,標簽在用戶冷啟動方面是能夠發揮比較大的作用的,而向量化也可以作用于用戶和內容的冷啟動方面。
AB實驗平臺對于推薦算法工程師做策略迭代至關重要,如何設計一個好的實驗及解讀實驗結果是否有顯著性,這對推薦算法工程師而言是一件比較困難的事情,實驗分析背后是需要統計學理論基礎的,如何看置信度、P-Value等都是需要掌握的。
本書以一個多年在工業界從事推薦系統研發工作的算法工程師的視角詳細介紹了推薦體系中的各個重要組成部分,在標簽體系、用戶畫像、多模態內容理解的特點、優化效果的實踐技巧等方面,以及其他介紹推薦系統的圖書中容易略過的地方,都做了很細致的闡述,并結合具體的實戰場景做了清晰的講解。該如何評估推薦系統的好壞是一個具有挑戰性的難題,分為很多流派,無論是只看在線消費指標,還是構建一個復雜的多層次指標矩陣,其取舍都是很困難的,這就需要與你所做的業務場景結合起來,跟產品或運營團隊緊密配合。
標簽抽取曾經在推薦算法的迭代歷史上發揮過重要的作用,以其白盒化、容易控制、與運營領域知識好結合等特點被廣泛采用。而隨著深度學習技術的應用,單從指標優化上來看,標簽似乎是一個過時的技術,但推薦冷啟動仍然是每個工業級推薦系統都跨不過去的難點。基于用戶標簽的冷啟動算法與E&E(探索與利用)策略或者與強化學習結合起來,可以在冷啟動這個經典難題上取得非常不錯的效果。
本書風格比較務實,非常適合希望學習推薦系統的工程師群體入門學習,也比較適合從事推薦系統研究工作的學者及學生了解工業級推薦系統的全貌,期待有更多優秀的技術人員能夠推開智能化推薦系統的大門。
風笛,小紅書技術VP