官术网_书友最值得收藏!

1.6 本章小結

網絡爬蟲的類型理論上分為4類,但實際上主要是兩大類:通用爬蟲和聚焦爬蟲。通用爬蟲主要有Google、百度、必應等搜索引擎,主要以核心算法為主導,學習成本相對較高。聚焦爬蟲就是定向爬取數據,是有目的性的爬蟲,學習成本相對較低。

我們常說的網絡爬蟲大多數以聚焦爬蟲為主,其原理和過程與通用爬蟲大致相同,讀者在編寫爬蟲程序的時候,需要以設定的爬蟲規則和爬取目標為主導,這樣更具較強的目的性。

網絡爬蟲在大多數情況下都不會違法,在生活中幾乎都有爬蟲應用,比如在百度中搜索的內容幾乎都是通過爬蟲采集下來的,因此網絡爬蟲作為一門技術,技術本身是不違法的,且在大多數情況下可以放心使用爬蟲技術。當然也有特殊情況,正如水果刀本身在法律上并不被禁止使用,但是用來傷害他人,這就觸犯了法律規則。

既然爬蟲技術是合法的,那么,我們有必要了解爬蟲的開發流程。只有掌握開發流程,才能編寫高質的爬蟲程序,這好比蓋房子一樣,建筑施工人員需要根據房屋設計圖才能搭建房子,而房屋設計圖等同于爬蟲的開發流程。

主站蜘蛛池模板: 神农架林区| 乐业县| 鄂伦春自治旗| 揭西县| 梧州市| 霍城县| 方正县| 炎陵县| 顺平县| 普兰店市| 普宁市| 菏泽市| 嵊泗县| 雷波县| 永州市| 延吉市| 嵊州市| 揭东县| 蒲城县| 比如县| 巴中市| 年辖:市辖区| 眉山市| 乌兰县| 台北县| 萝北县| 远安县| 金阳县| 金坛市| 静宁县| 涿州市| 开化县| 通辽市| 新龙县| 铜川市| 桂林市| 全南县| 讷河市| 乌兰察布市| 阿鲁科尔沁旗| 城步|