- 精通Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、框架與項目實戰(zhàn)
- 韋瑋
- 675字
- 2019-01-05 03:22:42
2.3 用戶爬蟲的那些事兒
用戶爬蟲是網(wǎng)絡(luò)爬蟲中的一種類型。所謂用戶爬蟲,指的是專門用來爬取互聯(lián)網(wǎng)中用戶數(shù)據(jù)的一種爬蟲。由于互聯(lián)網(wǎng)中的用戶數(shù)據(jù)信息,相對來說是比較敏感的數(shù)據(jù)信息,所以,用戶爬蟲的利用價值也相對較高。
利用用戶爬蟲可以做大量的事情,接下來我們一起來看一下利用用戶爬蟲所做的一些有趣的事情吧。
2015年,有知乎網(wǎng)友對知乎的用戶數(shù)據(jù)進行了爬取,然后進行對應的數(shù)據(jù)分析,便得到了知乎上大量的潛在數(shù)據(jù),比如:
?知乎上注冊用戶的男女比例:男生占例多于60%。
?知乎上注冊用戶的地區(qū):北京的人口占據(jù)比重最大,多于30%。
?知乎上注冊用戶從事的行業(yè):從事互聯(lián)網(wǎng)行業(yè)的用戶占據(jù)比重最大,同樣多于30%。
除此之外,只要我們細心發(fā)掘,還可以挖掘出更多的潛在數(shù)據(jù),而要分析這些數(shù)據(jù),則必須要獲取到這些用戶數(shù)據(jù),此時,我們可以使用網(wǎng)絡(luò)爬蟲技術(shù)輕松爬取到這些有用的用戶信息。
同樣,在2015年,有網(wǎng)友爬取了3000萬QQ空間的用戶信息,并同樣從中獲得了大量潛在數(shù)據(jù),比如:
?QQ空間用戶發(fā)說說的時間規(guī)律:晚上22點左右,平均發(fā)說說的數(shù)量是一天中最多的時候。
?QQ空間用戶的出生月份分布:1月份和10月份出生的用戶較多。
?QQ空間用戶的年齡階段分布:出生于1990年到1995年的用戶相對來說較多。
?QQ空間用戶的性別分布:男生占比多于50%,女生占比多于30%,未填性別的占10%左右。
除了以上兩個例子之外,用戶爬蟲還可以做很多事情,比如爬取淘寶的用戶信息,可以分析淘寶用戶喜歡什么商品,從而更有利于我們對商品的定位等。
由此可見,利用用戶爬蟲可以獲得很多有趣的潛在信息,那么這些爬蟲難嗎?其實不難,在閱讀完本書后,相信你也能寫出這樣的爬蟲。
- 現(xiàn)代C++軟件架構(gòu):方法與實踐
- UML基礎(chǔ)與Rose建模案例(第3版)
- 解決方案架構(gòu)師修煉之道(原書第2版)
- AIDevOps:智能微服務開發(fā)、運維原理與實踐
- 移動終端應用軟件開發(fā)實戰(zhàn)
- MindSpore深度學習高階技術(shù)
- 鳳凰項目:一個IT運維的傳奇故事
- 項目實踐精解:基于EJB 3.0和Web Services的Java應用開發(fā)
- 構(gòu)建跨平臺APP:jQuery Mobile移動應用實戰(zhàn)(第2版) (跨平臺移動開發(fā)叢書)
- 持續(xù)交付2.0:業(yè)務引領(lǐng)的DevOps精要(增訂本)
- 分布式應用系統(tǒng)架構(gòu)設(shè)計與實踐
- 軟件自動化測試成功之道:典型工具、腳本開發(fā)、測試框架和項目實戰(zhàn)
- 實時分析實戰(zhàn):構(gòu)建實時流處理應用和分析系統(tǒng)
- Arduino與LabVIEW開發(fā)實戰(zhàn)
- 數(shù)據(jù)可視化原理與實戰(zhàn):基于Power BI