- Python爬蟲開發:從入門到實戰(微課版)
- 謝乾坤
- 1082字
- 2019-01-10 18:16:28
1.2 爬蟲可以做什么
1.2.1 收集數據
爬蟲可以用來收集數據。這也是爬蟲最直接、最常用的使用方法。由于爬蟲是一種程序,程序的運行速度極快,而且不會因為做重復的事情就感覺到疲勞,因此使用爬蟲來獲取大量的數據,就變得極其簡單和快捷了。
由于現在99%以上的網站都是基于模板開發的,使用模板可以快速生成相同版式、不同內容的大量頁面。因此,只要針對一個頁面開發出了爬蟲,那么這個爬蟲也能爬取基于同一個模板生成的不同頁面。這種爬蟲稱為定向爬蟲,也是本書所要講到的爬蟲類型。
請看圖1-1和圖1-2,這是起點中文網的“玄幻頻道”和“奇幻頻道”頁面。

圖1-1 起點中文網的“玄幻頻道”頁面

圖1-2 起點中文網的“奇幻頻道”頁面
圖1-1和圖1-2所示的這兩個版面除了內容不一樣外,其他地方完全一樣。只要爬蟲能爬取“玄幻頻道”,那么就能爬取“奇幻頻道”。假設要把這兩個頁面的內容都獲取下來,如果人工來操作,就需要對兩個頁面進行復制及粘貼,做很多重復的工作。而如果使用爬蟲,那么只需要開發“玄幻頻道”的爬蟲就能實現既能爬取“玄幻頻道”又能爬取“奇幻頻道”的目標。
正是由于現在的網站大量使用了模板來生成頁面,所以爬蟲才能夠有用武之地。
1.2.2 盡職調查
所謂的盡職調查,一般是指投資人在投資一個公司之前,需要知道這個公司是否如他們自己所描述的一樣盡職盡責地工作,是否有偷奸耍滑、篡改數據、欺騙投資人的嫌疑。在過去,盡職調查一般通過調查目標公司的客戶或者審計財務報表來實現。而有了爬蟲以后,要做盡職調查就方便很多了。
例如調查一個電商公司,想知道他們的商品銷售情況。該公司自己聲稱每個月銷售額幾億元。如果使用爬蟲爬取了該公司網站所有商品的銷量情況,那么就可以計算出該公司的實際總銷售額。而且,如果爬取了所有的評論并進行分析,還可以發現該網站是否出現了刷單的行為。
數據不會說謊,特別是數據量極大的數據,人工偽造的總會和自然生成的存在區別。而在以前,對于數據量極大的數據進行搜集是一件非常困難的事情,但現在有了爬蟲的幫助,很多欺騙行為都會赤裸裸地暴露在陽光下。
1.2.3 刷流量和秒殺
刷流量是爬蟲天然自帶的功能。當爬蟲訪問了一個網站時,如果這個爬蟲隱藏得很好,網站不能識別這一次訪問來自于爬蟲,那么就會把它當成正常訪問。于是,爬蟲就“不小心”地刷了網站的訪問量。
除了刷流量外,爬蟲也可以參與各種秒殺活動,包括但不限于在各種電商網站上搶商品,搶優惠券,搶機票和火車票。目前,網上有不少人專門使用爬蟲來參加各種活動,并從中盈利。這種行為一般稱為“薅羊毛”,這種人被稱為“羊毛黨”。不過使用爬蟲來“薅羊毛”進行盈利的行為實際上游走在法律的灰色地帶,希望讀者不要輕易嘗試。
- Java逍遙游記
- Mastering NetBeans
- Oracle 11g從入門到精通(第2版) (軟件開發視頻大講堂)
- iOS 9 Game Development Essentials
- PowerCLI Cookbook
- Learning RabbitMQ
- Mastering Scientific Computing with R
- Python機器學習經典實例
- 劍指MySQL:架構、調優與運維
- Mastering JavaScript High Performance
- 單片機原理及應用技術
- Java程序設計入門(第2版)
- 詩意的邊緣
- Unreal Engine Game Development Cookbook
- Windows 10 for Enterprise Administrators