mg电子游戏网站是多少

書名：精通Python網(wǎng)絡(luò)爬蟲：核心技術(shù)、框架與項目實戰(zhàn)
作者名：韋瑋
本章字數(shù)： 675字
更新時間： 2019-01-05 03:22:42

2.3 用戶爬蟲的那些事兒

用戶爬蟲是網(wǎng)絡(luò)爬蟲中的一種類型。所謂用戶爬蟲，指的是專門用來爬取互聯(lián)網(wǎng)中用戶數(shù)據(jù)的一種爬蟲。由于互聯(lián)網(wǎng)中的用戶數(shù)據(jù)信息，相對來說是比較敏感的數(shù)據(jù)信息，所以，用戶爬蟲的利用價值也相對較高。

利用用戶爬蟲可以做大量的事情，接下來我們一起來看一下利用用戶爬蟲所做的一些有趣的事情吧。

2015年，有知乎網(wǎng)友對知乎的用戶數(shù)據(jù)進行了爬取，然后進行對應的數(shù)據(jù)分析，便得到了知乎上大量的潛在數(shù)據(jù)，比如：

?知乎上注冊用戶的男女比例：男生占例多于60%。

?知乎上注冊用戶的地區(qū)：北京的人口占據(jù)比重最大，多于30%。

?知乎上注冊用戶從事的行業(yè)：從事互聯(lián)網(wǎng)行業(yè)的用戶占據(jù)比重最大，同樣多于30%。

除此之外，只要我們細心發(fā)掘，還可以挖掘出更多的潛在數(shù)據(jù)，而要分析這些數(shù)據(jù)，則必須要獲取到這些用戶數(shù)據(jù)，此時，我們可以使用網(wǎng)絡(luò)爬蟲技術(shù)輕松爬取到這些有用的用戶信息。

同樣，在2015年，有網(wǎng)友爬取了3000萬QQ空間的用戶信息，并同樣從中獲得了大量潛在數(shù)據(jù)，比如：

?QQ空間用戶發(fā)說說的時間規(guī)律：晚上22點左右，平均發(fā)說說的數(shù)量是一天中最多的時候。

?QQ空間用戶的出生月份分布：1月份和10月份出生的用戶較多。

?QQ空間用戶的年齡階段分布：出生于1990年到1995年的用戶相對來說較多。

?QQ空間用戶的性別分布：男生占比多于50%，女生占比多于30%，未填性別的占10%左右。

除了以上兩個例子之外，用戶爬蟲還可以做很多事情，比如爬取淘寶的用戶信息，可以分析淘寶用戶喜歡什么商品，從而更有利于我們對商品的定位等。

由此可見，利用用戶爬蟲可以獲得很多有趣的潛在信息，那么這些爬蟲難嗎？其實不難，在閱讀完本書后，相信你也能寫出這樣的爬蟲。

官术网_书友最值得收藏!

精通Python網(wǎng)絡(luò)爬蟲：核心技術(shù)、框架與項目實戰(zhàn)

2.3 用戶爬蟲的那些事兒