官术网_书友最值得收藏!

第1章 網絡爬蟲概述

1.1 認識網絡爬蟲

1.1.1 網絡爬蟲的含義

在大數據時代,人類社會的數據正以前所未有的速度增長。數據蘊含著巨大的價值,無論是對個人工作、生活,還是對企業未來的發展和創新商業模式,都有著很大的幫助。充分挖掘數據潛在價值,能幫助人們找到更合適的合作對象、更便宜的生活用品,也能幫助企業找到更好的細分市場,有針對性地為企業日后的發展提供數據支撐。數據讓人們更好地掌握市場動向,更好地應對市場,產生新的合理的決策。

數據背后所隱藏的巨大商業價值正開始被越來越多的人所重視,那么數據從何而來?可以從網上找數據,但是人工提取數據效率太低,從經濟角度也不可行。購買數據是一個辦法,但是目前公開交易的數據少之又少,很難與多樣化的數據需求匹配。因此,對很多人和企業來說,如果想獲取全面、有效、準確的數據,編寫爬蟲抓取數據是一種明智之選,這就用到了這本書的主題——網絡爬蟲。

網絡爬蟲是一種程序,編寫網絡爬蟲的主要目的是將互聯網上的網頁下載到本地并提取出相關數據。網絡爬蟲可以自動化地瀏覽網絡中的信息,然后根據制定的規則下載和提取信息。

如圖1-1所示,如果把互聯網比喻成一個蜘蛛網,那么網絡爬蟲就是在網上爬來爬去的蜘蛛。簡單來講,網絡爬蟲主要完成兩個任務:一是下載目標網頁,二是從目標網頁中提取需要的數據。

0

圖1-1 網絡爬蟲示意圖

主站蜘蛛池模板: 天镇县| 沅江市| 崇文区| 安塞县| 丰镇市| 肇源县| 遵化市| 乌鲁木齐县| 明光市| 游戏| 沙湾县| 波密县| 伊金霍洛旗| 嘉峪关市| 贡山| 金平| 金坛市| 农安县| 阿合奇县| 淮滨县| 南乐县| 孙吴县| 安新县| 隆德县| 确山县| 宜黄县| 宁海县| 玛沁县| 永靖县| 乐亭县| 藁城市| 义马市| 塘沽区| 南木林县| 丰顺县| 永仁县| 贵德县| 涟源市| 谢通门县| 英德市| 长宁区|