- 實(shí)戰(zhàn)Python網(wǎng)絡(luò)爬蟲
- 黃永祥
- 621字
- 2019-11-22 18:44:30
第1章
理解網(wǎng)絡(luò)爬蟲
1.1 爬蟲的定義
網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動地抓取網(wǎng)絡(luò)信息的程序或者腳本。簡單來說,網(wǎng)絡(luò)爬蟲就是根據(jù)一定的算法實(shí)現(xiàn)編程開發(fā),主要通過URL實(shí)現(xiàn)數(shù)據(jù)的抓取和發(fā)掘。
隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)規(guī)模越來越龐大,數(shù)據(jù)類型繁多,但是數(shù)據(jù)價值普遍較低。為了從龐大的數(shù)據(jù)體系里獲取有價值的數(shù)據(jù),從而延伸了網(wǎng)絡(luò)爬蟲、數(shù)據(jù)分析等多個職位。近幾年,網(wǎng)絡(luò)爬蟲的需求更是井噴式地爆發(fā),在招聘的供求市場上往往是供不應(yīng)求,造成這個現(xiàn)狀的主要原因就是求職者的專業(yè)水平低于需求企業(yè)的要求。
傳統(tǒng)的爬蟲有百度、Google、必應(yīng)等搜索引擎,這類通用的搜索引擎都有自己的核心算法。但是,通用的搜索引擎存在著一定的局限性:
(1)不同的搜索引擎對于同一個搜索會有不同的結(jié)果,搜索出來的結(jié)果未必是用戶需要的信息。
(2)通用的搜索引擎擴(kuò)大了網(wǎng)絡(luò)覆蓋率,但有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
(3)隨著網(wǎng)絡(luò)上數(shù)據(jù)形式繁多和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。
因此,為了得到準(zhǔn)確的數(shù)據(jù),定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,可根據(jù)設(shè)定的抓取目標(biāo)有目的性地訪問互聯(lián)網(wǎng)上的網(wǎng)頁與相關(guān)的URL,從而獲取所需要的信息。與通用爬蟲不同,聚焦爬蟲并不追求全面的覆蓋率,而是抓取與某一特定內(nèi)容相關(guān)的網(wǎng)頁,為面向特定的用戶提供準(zhǔn)備數(shù)據(jù)資源。
- Learning LibGDX Game Development(Second Edition)
- 演進(jìn)式架構(gòu)(原書第2版)
- Node.js+Webpack開發(fā)實(shí)戰(zhàn)
- JIRA 7 Administration Cookbook(Second Edition)
- Learning Elixir
- SEO實(shí)戰(zhàn)密碼
- Python Network Programming Cookbook(Second Edition)
- 微信公眾平臺開發(fā):從零基礎(chǔ)到ThinkPHP5高性能框架實(shí)踐
- Java程序設(shè)計:原理與范例
- R Deep Learning Cookbook
- Visual C#.NET程序設(shè)計
- 領(lǐng)域驅(qū)動設(shè)計:軟件核心復(fù)雜性應(yīng)對之道(修訂版)
- 低代碼平臺開發(fā)實(shí)踐:基于React
- FPGA Verilog開發(fā)實(shí)戰(zhàn)指南:基于Intel Cyclone IV(進(jìn)階篇)
- Unity 2017 Mobile Game Development