- 企業(yè)級(jí)大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn):用戶搜索行為分析系統(tǒng)從0到1
- 張偉洋
- 503字
- 2024-12-28 12:20:39
1.1 項(xiàng)目需求
隨著互聯(lián)網(wǎng)的迅速發(fā)展,Web系統(tǒng)在滿足大量用戶訪問(wèn)的同時(shí),幾乎每天都在產(chǎn)生大量的用戶行為數(shù)據(jù)(用戶在使用系統(tǒng)時(shí)通過(guò)點(diǎn)擊、瀏覽等行為產(chǎn)生的日志數(shù)據(jù))及業(yè)務(wù)交互數(shù)據(jù)。通過(guò)對(duì)這些行為數(shù)據(jù)進(jìn)行分析可以獲取用戶的瀏覽行為,挖掘數(shù)據(jù)中的潛在價(jià)值,從而更好地、有針對(duì)性地進(jìn)行系統(tǒng)的運(yùn)營(yíng)。然而隨著日志數(shù)據(jù)每天上百吉字節(jié)地增長(zhǎng),傳統(tǒng)的單機(jī)處理架構(gòu)已經(jīng)不能滿足需求,此時(shí)就需要使用大數(shù)據(jù)技術(shù)并行計(jì)算來(lái)解決。
本書(shū)通過(guò)“用戶搜索行為分析系統(tǒng)”項(xiàng)目從0到1、手把手講解如何使用大數(shù)據(jù)技術(shù)對(duì)搜索引擎中的海量用戶搜索日志數(shù)據(jù)進(jìn)行用戶行為分析,最終實(shí)現(xiàn)以下需求:
· 實(shí)時(shí)統(tǒng)計(jì)前10名流量最高的搜索詞。
· 使用可視化圖表實(shí)時(shí)展示統(tǒng)計(jì)結(jié)果。
· 統(tǒng)計(jì)一天中上網(wǎng)用戶最多的時(shí)間段。
· 統(tǒng)計(jì)用戶訪問(wèn)最多的前10個(gè)網(wǎng)站域名。
· 分析鏈接排名與用戶點(diǎn)擊的相關(guān)性。
· 統(tǒng)計(jì)每天搜索數(shù)量前3名的搜索詞(熱點(diǎn)搜索詞統(tǒng)計(jì))。
· 搜索引擎每日UV(Unique Visitor,獨(dú)立訪客)統(tǒng)計(jì)。
對(duì)于實(shí)時(shí)統(tǒng)計(jì),最終將使用柱形圖以可視化的形式在瀏覽器中實(shí)時(shí)動(dòng)態(tài)展示并排名,展示效果如圖1-1所示。

圖1-1 可視化柱形圖實(shí)時(shí)展示搜索詞訪問(wèn)量
圖1-1柱形圖的橫坐標(biāo)表示用戶搜索的關(guān)鍵詞,縱坐標(biāo)表示關(guān)鍵詞對(duì)應(yīng)的搜索訪問(wèn)數(shù)量。
- 數(shù)據(jù)分析實(shí)戰(zhàn):基于EXCEL和SPSS系列工具的實(shí)踐
- Google Visualization API Essentials
- SQL Server入門(mén)經(jīng)典
- Spark快速大數(shù)據(jù)分析(第2版)
- SQL查詢:從入門(mén)到實(shí)踐(第4版)
- 數(shù)據(jù)革命:大數(shù)據(jù)價(jià)值實(shí)現(xiàn)方法、技術(shù)與案例
- Hadoop 3.x大數(shù)據(jù)開(kāi)發(fā)實(shí)戰(zhàn)
- 企業(yè)級(jí)數(shù)據(jù)與AI項(xiàng)目成功之道
- 計(jì)算機(jī)應(yīng)用基礎(chǔ)教程上機(jī)指導(dǎo)與習(xí)題集(微課版)
- 數(shù)據(jù)科學(xué)實(shí)戰(zhàn)指南
- 區(qū)塊鏈技術(shù)應(yīng)用與實(shí)踐案例
- 云計(jì)算寶典:技術(shù)與實(shí)踐
- 數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)技術(shù)
- AI Crash Course
- 深入理解Flink:實(shí)時(shí)大數(shù)據(jù)處理實(shí)踐