官术网_书友最值得收藏!

1.2 爬蟲可以做什么

1.2.1 收集數據

爬蟲可以用來收集數據。這也是爬蟲最直接、最常用的使用方法。由于爬蟲是一種程序,程序的運行速度極快,而且不會因為做重復的事情就感覺到疲勞,因此使用爬蟲來獲取大量的數據,就變得極其簡單和快捷了。

由于現在99%以上的網站都是基于模板開發的,使用模板可以快速生成相同版式、不同內容的大量頁面。因此,只要針對一個頁面開發出了爬蟲,那么這個爬蟲也能爬取基于同一個模板生成的不同頁面。這種爬蟲稱為定向爬蟲,也是本書所要講到的爬蟲類型。

請看圖1-1和圖1-2,這是起點中文網的“玄幻頻道”和“奇幻頻道”頁面。

圖1-1 起點中文網的“玄幻頻道”頁面

圖1-2 起點中文網的“奇幻頻道”頁面

圖1-1和圖1-2所示的這兩個版面除了內容不一樣外,其他地方完全一樣。只要爬蟲能爬取“玄幻頻道”,那么就能爬取“奇幻頻道”。假設要把這兩個頁面的內容都獲取下來,如果人工來操作,就需要對兩個頁面進行復制及粘貼,做很多重復的工作。而如果使用爬蟲,那么只需要開發“玄幻頻道”的爬蟲就能實現既能爬取“玄幻頻道”又能爬取“奇幻頻道”的目標。

正是由于現在的網站大量使用了模板來生成頁面,所以爬蟲才能夠有用武之地。

1.2.2 盡職調查

所謂的盡職調查,一般是指投資人在投資一個公司之前,需要知道這個公司是否如他們自己所描述的一樣盡職盡責地工作,是否有偷奸耍滑、篡改數據、欺騙投資人的嫌疑。在過去,盡職調查一般通過調查目標公司的客戶或者審計財務報表來實現。而有了爬蟲以后,要做盡職調查就方便很多了。

例如調查一個電商公司,想知道他們的商品銷售情況。該公司自己聲稱每個月銷售額幾億元。如果使用爬蟲爬取了該公司網站所有商品的銷量情況,那么就可以計算出該公司的實際總銷售額。而且,如果爬取了所有的評論并進行分析,還可以發現該網站是否出現了刷單的行為。

數據不會說謊,特別是數據量極大的數據,人工偽造的總會和自然生成的存在區別。而在以前,對于數據量極大的數據進行搜集是一件非常困難的事情,但現在有了爬蟲的幫助,很多欺騙行為都會赤裸裸地暴露在陽光下。

1.2.3 刷流量和秒殺

刷流量是爬蟲天然自帶的功能。當爬蟲訪問了一個網站時,如果這個爬蟲隱藏得很好,網站不能識別這一次訪問來自于爬蟲,那么就會把它當成正常訪問。于是,爬蟲就“不小心”地刷了網站的訪問量。

除了刷流量外,爬蟲也可以參與各種秒殺活動,包括但不限于在各種電商網站上搶商品,搶優惠券,搶機票和火車票。目前,網上有不少人專門使用爬蟲來參加各種活動,并從中盈利。這種行為一般稱為“薅羊毛”,這種人被稱為“羊毛黨”。不過使用爬蟲來“薅羊毛”進行盈利的行為實際上游走在法律的灰色地帶,希望讀者不要輕易嘗試。

主站蜘蛛池模板: 滁州市| 周宁县| 唐海县| 通化市| 陇川县| 阿拉善右旗| 南木林县| 静乐县| 双江| 龙门县| 磐石市| 平昌县| 临海市| 株洲市| 正定县| 东山县| 黔西| 屏边| 阿拉善右旗| 铜陵市| 浦县| 大邑县| 临沧市| 陕西省| 东乌珠穆沁旗| 突泉县| 温泉县| 靖宇县| 道孚县| 新化县| 腾冲县| 青川县| 海城市| 朔州市| 两当县| 高阳县| 周至县| 武汉市| 常熟市| 天津市| 峨眉山市|