- Python網(wǎng)絡(luò)爬蟲實例教程(視頻講解版)
- 齊文光
- 7字
- 2020-10-13 17:53:19
第1章 網(wǎng)絡(luò)爬蟲概述
1.1 認(rèn)識網(wǎng)絡(luò)爬蟲
1.1.1 網(wǎng)絡(luò)爬蟲的含義
在大數(shù)據(jù)時代,人類社會的數(shù)據(jù)正以前所未有的速度增長。數(shù)據(jù)蘊含著巨大的價值,無論是對個人工作、生活,還是對企業(yè)未來的發(fā)展和創(chuàng)新商業(yè)模式,都有著很大的幫助。充分挖掘數(shù)據(jù)潛在價值,能幫助人們找到更合適的合作對象、更便宜的生活用品,也能幫助企業(yè)找到更好的細(xì)分市場,有針對性地為企業(yè)日后的發(fā)展提供數(shù)據(jù)支撐。數(shù)據(jù)讓人們更好地掌握市場動向,更好地應(yīng)對市場,產(chǎn)生新的合理的決策。
數(shù)據(jù)背后所隱藏的巨大商業(yè)價值正開始被越來越多的人所重視,那么數(shù)據(jù)從何而來?可以從網(wǎng)上找數(shù)據(jù),但是人工提取數(shù)據(jù)效率太低,從經(jīng)濟(jì)角度也不可行。購買數(shù)據(jù)是一個辦法,但是目前公開交易的數(shù)據(jù)少之又少,很難與多樣化的數(shù)據(jù)需求匹配。因此,對很多人和企業(yè)來說,如果想獲取全面、有效、準(zhǔn)確的數(shù)據(jù),編寫爬蟲抓取數(shù)據(jù)是一種明智之選,這就用到了這本書的主題——網(wǎng)絡(luò)爬蟲。
網(wǎng)絡(luò)爬蟲是一種程序,編寫網(wǎng)絡(luò)爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地并提取出相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)爬蟲可以自動化地瀏覽網(wǎng)絡(luò)中的信息,然后根據(jù)制定的規(guī)則下載和提取信息。
如圖1-1所示,如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么網(wǎng)絡(luò)爬蟲就是在網(wǎng)上爬來爬去的蜘蛛。簡單來講,網(wǎng)絡(luò)爬蟲主要完成兩個任務(wù):一是下載目標(biāo)網(wǎng)頁,二是從目標(biāo)網(wǎng)頁中提取需要的數(shù)據(jù)。

圖1-1 網(wǎng)絡(luò)爬蟲示意圖
- Practical Data Analysis Cookbook
- 深入理解Django:框架內(nèi)幕與實現(xiàn)原理
- ASP.NET Core 2 and Vue.js
- Android Native Development Kit Cookbook
- The HTML and CSS Workshop
- 自制編程語言
- 計算機(jī)應(yīng)用基礎(chǔ)實踐教程
- 劍指大數(shù)據(jù):企業(yè)級數(shù)據(jù)倉庫項目實戰(zhàn)(在線教育版)
- Scala Reactive Programming
- 深入解析Java編譯器:源碼剖析與實例詳解
- Oracle Database XE 11gR2 Jump Start Guide
- Flutter從0基礎(chǔ)到App上線
- Roslyn Cookbook
- R統(tǒng)計應(yīng)用開發(fā)實戰(zhàn)
- Getting Started with Backbone Marionette