官术网_书友最值得收藏!

1.1 項(xiàng)目需求

隨著互聯(lián)網(wǎng)的迅速發(fā)展,Web系統(tǒng)在滿足大量用戶訪問(wèn)的同時(shí),幾乎每天都在產(chǎn)生大量的用戶行為數(shù)據(jù)(用戶在使用系統(tǒng)時(shí)通過(guò)點(diǎn)擊、瀏覽等行為產(chǎn)生的日志數(shù)據(jù))及業(yè)務(wù)交互數(shù)據(jù)。通過(guò)對(duì)這些行為數(shù)據(jù)進(jìn)行分析可以獲取用戶的瀏覽行為,挖掘數(shù)據(jù)中的潛在價(jià)值,從而更好地、有針對(duì)性地進(jìn)行系統(tǒng)的運(yùn)營(yíng)。然而隨著日志數(shù)據(jù)每天上百吉字節(jié)地增長(zhǎng),傳統(tǒng)的單機(jī)處理架構(gòu)已經(jīng)不能滿足需求,此時(shí)就需要使用大數(shù)據(jù)技術(shù)并行計(jì)算來(lái)解決。

本書(shū)通過(guò)“用戶搜索行為分析系統(tǒng)”項(xiàng)目從0到1、手把手講解如何使用大數(shù)據(jù)技術(shù)對(duì)搜索引擎中的海量用戶搜索日志數(shù)據(jù)進(jìn)行用戶行為分析,最終實(shí)現(xiàn)以下需求:

· 實(shí)時(shí)統(tǒng)計(jì)前10名流量最高的搜索詞。

· 使用可視化圖表實(shí)時(shí)展示統(tǒng)計(jì)結(jié)果。

· 統(tǒng)計(jì)一天中上網(wǎng)用戶最多的時(shí)間段。

· 統(tǒng)計(jì)用戶訪問(wèn)最多的前10個(gè)網(wǎng)站域名。

· 分析鏈接排名與用戶點(diǎn)擊的相關(guān)性。

· 統(tǒng)計(jì)每天搜索數(shù)量前3名的搜索詞(熱點(diǎn)搜索詞統(tǒng)計(jì))。

· 搜索引擎每日UV(Unique Visitor,獨(dú)立訪客)統(tǒng)計(jì)。

對(duì)于實(shí)時(shí)統(tǒng)計(jì),最終將使用柱形圖以可視化的形式在瀏覽器中實(shí)時(shí)動(dòng)態(tài)展示并排名,展示效果如圖1-1所示。

圖1-1 可視化柱形圖實(shí)時(shí)展示搜索詞訪問(wèn)量

圖1-1柱形圖的橫坐標(biāo)表示用戶搜索的關(guān)鍵詞,縱坐標(biāo)表示關(guān)鍵詞對(duì)應(yīng)的搜索訪問(wèn)數(shù)量。

主站蜘蛛池模板: 南岸区| 日喀则市| 曲水县| 潼关县| 灵武市| 蓬莱市| 西青区| 竹山县| 柳河县| 潞城市| 凤阳县| 灵武市| 都江堰市| 嘉祥县| 长丰县| 鸡泽县| 土默特左旗| 句容市| 铁岭市| 佛坪县| 金平| 普洱| 调兵山市| 西昌市| 建水县| 惠来县| 成安县| 磴口县| 北辰区| 康平县| 柞水县| 台山市| 那坡县| 肥东县| 平原县| 邮箱| 龙门县| 融水| 陆良县| 清水河县| 新兴县|