- Python網絡爬蟲實例教程(視頻講解版)
- 齊文光
- 699字
- 2020-10-13 17:53:20
1.1.2 網絡爬蟲的主要類型
網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層頁面爬蟲。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。
1. 通用網絡爬蟲
通用網絡爬蟲又稱全網爬蟲,爬行對象從一些種子URL擴充到整個Web,主要為門戶站點、搜索引擎和大型Web服務提供商采集數據。
2. 聚焦網絡爬蟲
聚焦網絡爬蟲是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。與通用網絡爬蟲相比,聚焦網絡爬蟲只需要爬行與主題相關的頁面,極大地節省了硬件和網絡資源,保存的頁面也因數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。聚焦網絡爬蟲是需要我們關注的重點爬蟲類型。
3. 增量式網絡爬蟲
增量式網絡爬蟲是指對已下載網頁采取增量式更新和只爬行新產生的或者已經發生變化的網頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。與周期性爬行和刷新頁面的網絡爬蟲相比,增量式爬蟲只會在需要的時候爬行新產生或發生更新的頁面,并不重新下載沒有發生變化的頁面,可有效減少數據下載量,及時更新已爬行的網頁,減小時間和空間上的耗費,但是增加了爬行算法的復雜度和實現難度。后面的章節將對增量式網絡爬蟲和去重方法做簡要介紹。
4. 深層頁面爬蟲
Web頁面按存在方式分為表層網頁和深層網頁。表層網頁是傳統搜索引擎可以索引的頁面,是以超鏈接可以到達的靜態網頁為主構成的Web頁面。深層網頁是大部分內容不能通過靜態鏈接獲取的,隱藏在搜索表單后的,只有用戶提交一些關鍵詞才能獲得的Web頁面。例如那些用戶注冊后內容才可見的網頁就屬于深層頁面。后面的章節將向讀者介紹讓爬蟲登錄一個網站、爬取深層頁面的方法。
推薦閱讀
- INSTANT Mock Testing with PowerMock
- Learning Neo4j
- Web前端開發技術:HTML、CSS、JavaScript(第3版)
- Node.js 10實戰
- Reporting with Visual Studio and Crystal Reports
- AngularJS Testing Cookbook
- Python從小白到大牛
- BeagleBone Media Center
- PostgreSQL Replication(Second Edition)
- 從零開始學C#
- 零基礎學C語言第2版
- Developing SSRS Reports for Dynamics AX
- Mastering Concurrency in Python
- C#面向對象程序設計(第2版)
- Java并發實現原理:JDK源碼剖析