- 實戰Python網絡爬蟲
- 黃永祥
- 433字
- 2019-11-22 18:44:31
1.6 本章小結
網絡爬蟲的類型理論上分為4類,但實際上主要是兩大類:通用爬蟲和聚焦爬蟲。通用爬蟲主要有Google、百度、必應等搜索引擎,主要以核心算法為主導,學習成本相對較高。聚焦爬蟲就是定向爬取數據,是有目的性的爬蟲,學習成本相對較低。
我們常說的網絡爬蟲大多數以聚焦爬蟲為主,其原理和過程與通用爬蟲大致相同,讀者在編寫爬蟲程序的時候,需要以設定的爬蟲規則和爬取目標為主導,這樣更具較強的目的性。
網絡爬蟲在大多數情況下都不會違法,在生活中幾乎都有爬蟲應用,比如在百度中搜索的內容幾乎都是通過爬蟲采集下來的,因此網絡爬蟲作為一門技術,技術本身是不違法的,且在大多數情況下可以放心使用爬蟲技術。當然也有特殊情況,正如水果刀本身在法律上并不被禁止使用,但是用來傷害他人,這就觸犯了法律規則。
既然爬蟲技術是合法的,那么,我們有必要了解爬蟲的開發流程。只有掌握開發流程,才能編寫高質的爬蟲程序,這好比蓋房子一樣,建筑施工人員需要根據房屋設計圖才能搭建房子,而房屋設計圖等同于爬蟲的開發流程。
推薦閱讀
- Java EE 6 企業級應用開發教程
- Java 9 Concurrency Cookbook(Second Edition)
- 編程的修煉
- RTC程序設計:實時音視頻權威指南
- Getting Started with React Native
- ASP.NET程序開發范例寶典
- Learning Nessus for Penetration Testing
- Django Design Patterns and Best Practices
- Software-Defined Networking with OpenFlow(Second Edition)
- 軟件測試(慕課版)
- Mastering Machine Learning with R
- Java EE輕量級解決方案:S2SH
- Scratch少兒編程高手的7個好習慣
- Node.js進階之路
- Flask Web開發實戰:入門、進階與原理解析