- 精通Python網絡爬蟲:核心技術、框架與項目實戰
- 韋瑋
- 253字
- 2019-01-05 03:22:40
第1章 什么是網絡爬蟲
隨著大數據時代的來臨,網絡爬蟲在互聯網中的地位將越來越重要。互聯網中的數據是海量的,如何自動高效地獲取互聯網中我們感興趣的信息并為我們所用是一個重要的問題,而爬蟲技術就是為了解決這些問題而生的。我們感興趣的信息分為不同的類型:如果只是做搜索引擎,那么感興趣的信息就是互聯網中盡可能多的高質量網頁;如果要獲取某一垂直領域的數據或者有明確的檢索需求,那么感興趣的信息就是根據我們的檢索和需求所定位的這些信息,此時,需要過濾掉一些無用信息。前者我們稱為通用網絡爬蟲,后者我們稱為聚焦網絡爬蟲。