- 推薦系統(tǒng)技術(shù)原理與實踐
- 文亮
- 2272字
- 2023-12-21 17:34:13
前言
2020年,天貓“雙11”總成交額達到4982億元,比2019年的2684億元(數(shù)據(jù)來自東方財富網(wǎng))高出約86%。其背后的技術(shù)便是今天應用廣泛的推薦算法,推薦算法具有非常大的轉(zhuǎn)折意義。除了天貓、淘寶這樣的電商平臺,今日頭條和百度也依靠信息流與推薦系統(tǒng)開創(chuàng)了內(nèi)容分發(fā)的新格局。據(jù)統(tǒng)計,在亞馬遜這樣的電商平臺中,推薦系統(tǒng)對用戶購買的貢獻率在30%以上,而在今日頭條這樣的信息流平臺中,推薦系統(tǒng)對用戶點擊率的貢獻率在50%以上(數(shù)據(jù)來自36氪網(wǎng)站)。推薦時代,實實在在地到來了。
回溯推薦系統(tǒng)的發(fā)展歷史,1994年,美國明尼蘇達大學研究組推出第一個自動化推薦系統(tǒng)GroupLens,提出將協(xié)同過濾作為推薦系統(tǒng)的重要技術(shù)。如果以此作為推薦系統(tǒng)領(lǐng)域的開端,那么推薦系統(tǒng)距今已有28年歷史。在這28年中,推薦系統(tǒng)的技術(shù)發(fā)展日新月異。2016年被稱為“人工智能元年”,近年來推薦系統(tǒng)技術(shù)也正式步入了深度學習時代。2016 年后,谷歌、微軟、百度、阿里巴巴等公司相繼發(fā)表了將深度學習應用于推薦系統(tǒng)的論文,深度學習理論逐漸在推薦系統(tǒng)場景落地。2020 年以來,騰訊、YouTube、快手等公司成功地在推薦、廣告等業(yè)務場景中應用強化學習模型,推薦系統(tǒng)進入蓬勃發(fā)展、百花齊放的新時代。
在這個技術(shù)日新月異、模型結(jié)構(gòu)快速演變的時代,我們有必要系統(tǒng)地梳理推薦系統(tǒng)的知識結(jié)構(gòu),幫助讀者構(gòu)建推薦系統(tǒng)的技術(shù)框架。如果關(guān)注模型結(jié)構(gòu)本身,讀者會發(fā)現(xiàn)在2016年谷歌發(fā)表論文“Wide & Deep Learning for Recommender Systems”后,一大批相關(guān)的模型陸續(xù)出現(xiàn),如PNN、FNN、DeepFM、AFM、NFM和DCN等。這些模型都致力于解決一個問題——通過提升模型的非線性擬合能力來優(yōu)化特征的自動組合。在工業(yè)界,以阿里巴巴為例,它先后提出了MLR、DIN、DIEN、DSIN、MIMN、SIM和CAN等模型。這些模型主要包含兩條技術(shù)路線,一條是提升特征交叉能力,另一條就是以實際業(yè)務為背景,充分利用用戶的行為數(shù)據(jù),更精準地刻畫用戶興趣。本書希望幫助讀者厘清這些模型結(jié)構(gòu)內(nèi)在的聯(lián)系,構(gòu)建推薦系統(tǒng)的技術(shù)框架。
本書介紹大型工業(yè)級推薦系統(tǒng)的多鏈路結(jié)構(gòu),因此會在推薦排序模型中引入粗排和精排的相關(guān)內(nèi)容。粗排和精排在很多講解推薦系統(tǒng)的圖書中是被忽略的,但是站在推薦系統(tǒng)從業(yè)者的角度,它們是推薦系統(tǒng)不可或缺的部分,甚至能為360導航信息流推薦這樣的業(yè)務帶來10%以上的收入增量。
1 寫作背景
寫作本書的動機,一是我一直有系統(tǒng)整理推薦系統(tǒng)相關(guān)知識的愿望,二是人民郵電出版社編輯的邀請。在這之前,我有在知乎平臺總結(jié)平時工作內(nèi)容的習慣,這段經(jīng)歷讓我體會到,認真總結(jié)技術(shù)內(nèi)容不僅可以提升自己的能力,也能讓更多讀者受益。目前,我已在推薦系統(tǒng)領(lǐng)域工作了超過5年,也承擔過推薦系統(tǒng)中召回和排序等各方面的工作。因此,我選擇了推薦系統(tǒng)技術(shù)原理與實踐這個主題,以期把自己平時的實踐經(jīng)驗分享給感興趣的同行。
2 本書結(jié)構(gòu)
本書重點介紹推薦系統(tǒng)的模型應用和實踐經(jīng)驗,在介紹推薦系統(tǒng)每個模塊涉及的具體技術(shù)的同時,力圖介紹清楚技術(shù)發(fā)展的主要脈絡和前因后果。
由于機器學習和深度學習算法在推薦系統(tǒng)模型中占據(jù)絕對核心的地位,無論是召回、粗排,還是精排、重排,都離不開機器學習和深度學習模型的應用,因此本書第2章著重介紹機器學習和深度學習的基礎知識。之后的章節(jié)會依次介紹召回、粗排、精排、重排的技術(shù)細節(jié)和實踐經(jīng)驗,并通過業(yè)界前沿的推薦系統(tǒng)實例將所有知識融會貫通。本書的內(nèi)容主要分為以下8章。
第1章 推薦系統(tǒng)簡介
本章首先介紹推薦系統(tǒng)的基礎知識及其在互聯(lián)網(wǎng)信息流中的作用和意義,然后介紹推薦系統(tǒng)的主要技術(shù)架構(gòu),使讀者對推薦系統(tǒng)有宏觀的認識,從而引出本書要講的主要內(nèi)容——推薦系統(tǒng)的4層級聯(lián)架構(gòu)。
第2章 推薦系統(tǒng)算法基礎
本章主要介紹推薦算法的基礎知識,以機器學習中應用極廣的邏輯斯諦回歸模型和深度學習中極簡單的MLP模型為例,介紹模型的優(yōu)化算法。
第3章 召回技術(shù)演進
本章首先介紹傳統(tǒng)個性化召回和模型化召回的歷史,然后介紹業(yè)界主流召回算法的發(fā)展過程和技術(shù)細節(jié),主要包括微軟、YouTube和阿里巴巴等大型互聯(lián)網(wǎng)公司的召回技術(shù)實踐。
第4章 粗排技術(shù)演進
本章主要介紹粗排技術(shù)體系與新進展,包括深度學習在粗排中的應用,并以阿里巴巴的粗排模型COLD為例,介紹業(yè)界前沿的粗排技術(shù)。
第5章 精排技術(shù)演進
如果說召回和粗排是推薦系統(tǒng)的重要部分,那么精排就是整個推薦系統(tǒng)最重要的部分。本章詳細介紹精排模型的技術(shù)細節(jié)和實踐經(jīng)驗,并從特征自動組合和用戶興趣表達兩個角度介紹精排模型的演進。
第6章 重排技術(shù)演進
重排是推薦模型的最后一個模塊,本章介紹重排算法的技術(shù)細節(jié),并以阿里巴巴的PRN重排模型為例,介紹重排算法的實踐經(jīng)驗。
第7章 多目標排序在推薦系統(tǒng)中的應用
隨著業(yè)務的發(fā)展,互聯(lián)網(wǎng)公司不再只追求單一的目標,而是要同時考慮多個業(yè)務指標。比如在新聞推薦場景中,不僅要考慮點擊率(CTR),還要考慮分享、點贊、評論、轉(zhuǎn)發(fā)、收藏等指標,而前面的精排模型更多地關(guān)注CTR預估這一單一目標。本章將重點介紹多目標排序在推薦系統(tǒng)中的應用,主要分享業(yè)界前沿的實踐經(jīng)驗,并以360實踐為例,介紹多目標排序的具體應用。
第8章 推薦系統(tǒng)的前沿實踐
本章從公平性、冷啟動等多角度審視推薦系統(tǒng),介紹推薦系統(tǒng)的前沿實踐,覆蓋推薦系統(tǒng)的公平性問題、多場景融合、冷啟動問題等內(nèi)容。
3 面向讀者
本書的目標讀者可以分為以下3類。
第一類是推薦、廣告、搜索等領(lǐng)域的開發(fā)人員。本書能夠幫助他們深入學習推薦系統(tǒng)的完整技術(shù)結(jié)構(gòu),并應用于業(yè)務工作中。
第二類是有一定機器學習基礎,希望進入推薦系統(tǒng)領(lǐng)域的初學者。本書能夠幫助他們了解推薦系統(tǒng)的技術(shù)原理以及大型互聯(lián)網(wǎng)公司的業(yè)務實踐。
第三類是高校計算機相關(guān)專業(yè)學生。本書能夠幫助他們學習機器學習和深度學習的基礎知識,從零開始了解推薦系統(tǒng)的知識體系。
- 城堡里學無人機:原理、系統(tǒng)與實現(xiàn)
- 人工智能開發(fā)語言:Python
- 人工智能安全
- 虛擬現(xiàn)實:商業(yè)化應用及影響
- 人工智能3.0:大智若愚
- 涌現(xiàn):AI大模型賦能千行百業(yè)
- 人工智能不會做什么:100億人類與100億機器人共存的未來
- 智能浪潮:增強時代來臨
- 人工智能+機器人入門與實戰(zhàn)
- 共生:科技與社會驅(qū)動的數(shù)字化未來
- 破解深度學習(基礎篇):模型算法與實現(xiàn)
- 大模型工程化:AI驅(qū)動下的數(shù)據(jù)體系
- DeepSeek:打開財富密碼
- 開啟AI新紀元(全2冊)
- 圖靈的大教堂:數(shù)字宇宙開啟智能時代