官术网_书友最值得收藏!

第1章 網絡爬蟲概述

1.1 認識網絡爬蟲

1.1.1 網絡爬蟲的含義

在大數據時代,人類社會的數據正以前所未有的速度增長。數據蘊含著巨大的價值,無論是對個人工作、生活,還是對企業未來的發展和創新商業模式,都有著很大的幫助。充分挖掘數據潛在價值,能幫助人們找到更合適的合作對象、更便宜的生活用品,也能幫助企業找到更好的細分市場,有針對性地為企業日后的發展提供數據支撐。數據讓人們更好地掌握市場動向,更好地應對市場,產生新的合理的決策。

數據背后所隱藏的巨大商業價值正開始被越來越多的人所重視,那么數據從何而來?可以從網上找數據,但是人工提取數據效率太低,從經濟角度也不可行。購買數據是一個辦法,但是目前公開交易的數據少之又少,很難與多樣化的數據需求匹配。因此,對很多人和企業來說,如果想獲取全面、有效、準確的數據,編寫爬蟲抓取數據是一種明智之選,這就用到了這本書的主題——網絡爬蟲。

網絡爬蟲是一種程序,編寫網絡爬蟲的主要目的是將互聯網上的網頁下載到本地并提取出相關數據。網絡爬蟲可以自動化地瀏覽網絡中的信息,然后根據制定的規則下載和提取信息。

如圖1-1所示,如果把互聯網比喻成一個蜘蛛網,那么網絡爬蟲就是在網上爬來爬去的蜘蛛。簡單來講,網絡爬蟲主要完成兩個任務:一是下載目標網頁,二是從目標網頁中提取需要的數據。

0

圖1-1 網絡爬蟲示意圖

主站蜘蛛池模板: 洪泽县| 垫江县| 石狮市| 托克托县| 新丰县| 屏边| 富锦市| 株洲市| 宜良县| 鄂伦春自治旗| 长岛县| 江安县| 阿合奇县| 阜新市| 昭通市| 营口市| 梅河口市| 龙州县| 蒙自县| 铜陵市| 义乌市| 永济市| 桑日县| 华亭县| 瑞金市| 饶河县| 六盘水市| 铜山县| 剑川县| 屏南县| 永济市| 庐江县| 临夏市| 南宫市| 新蔡县| 剑河县| 河津市| 汾阳市| 新野县| 望奎县| 社旗县|