官术网_书友最值得收藏!

第1章 網(wǎng)絡(luò)爬蟲概述

1.1 認(rèn)識網(wǎng)絡(luò)爬蟲

1.1.1 網(wǎng)絡(luò)爬蟲的含義

在大數(shù)據(jù)時代,人類社會的數(shù)據(jù)正以前所未有的速度增長。數(shù)據(jù)蘊含著巨大的價值,無論是對個人工作、生活,還是對企業(yè)未來的發(fā)展和創(chuàng)新商業(yè)模式,都有著很大的幫助。充分挖掘數(shù)據(jù)潛在價值,能幫助人們找到更合適的合作對象、更便宜的生活用品,也能幫助企業(yè)找到更好的細(xì)分市場,有針對性地為企業(yè)日后的發(fā)展提供數(shù)據(jù)支撐。數(shù)據(jù)讓人們更好地掌握市場動向,更好地應(yīng)對市場,產(chǎn)生新的合理的決策。

數(shù)據(jù)背后所隱藏的巨大商業(yè)價值正開始被越來越多的人所重視,那么數(shù)據(jù)從何而來?可以從網(wǎng)上找數(shù)據(jù),但是人工提取數(shù)據(jù)效率太低,從經(jīng)濟(jì)角度也不可行。購買數(shù)據(jù)是一個辦法,但是目前公開交易的數(shù)據(jù)少之又少,很難與多樣化的數(shù)據(jù)需求匹配。因此,對很多人和企業(yè)來說,如果想獲取全面、有效、準(zhǔn)確的數(shù)據(jù),編寫爬蟲抓取數(shù)據(jù)是一種明智之選,這就用到了這本書的主題——網(wǎng)絡(luò)爬蟲。

網(wǎng)絡(luò)爬蟲是一種程序,編寫網(wǎng)絡(luò)爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地并提取出相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)爬蟲可以自動化地瀏覽網(wǎng)絡(luò)中的信息,然后根據(jù)制定的規(guī)則下載和提取信息。

如圖1-1所示,如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么網(wǎng)絡(luò)爬蟲就是在網(wǎng)上爬來爬去的蜘蛛。簡單來講,網(wǎng)絡(luò)爬蟲主要完成兩個任務(wù):一是下載目標(biāo)網(wǎng)頁,二是從目標(biāo)網(wǎng)頁中提取需要的數(shù)據(jù)。

0

圖1-1 網(wǎng)絡(luò)爬蟲示意圖

主站蜘蛛池模板: 正阳县| 田阳县| 治多县| 红原县| 留坝县| 阿巴嘎旗| 霍州市| 陕西省| 泰兴市| 巴林右旗| 拉萨市| 贵州省| 任丘市| 锦屏县| 沽源县| 寻甸| 察隅县| 大邑县| 苍山县| 广安市| 商城县| 乐安县| 沾化县| 湄潭县| 乐安县| 凤翔县| 尤溪县| 邹平县| 永城市| 宽甸| 偃师市| 道真| 康平县| 四子王旗| 哈密市| 保定市| 辽源市| 万源市| 嘉善县| 墨玉县| 万全县|