官术网_书友最值得收藏!

1.1.2 網絡爬蟲的主要類型

網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層頁面爬蟲。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。

1. 通用網絡爬蟲

通用網絡爬蟲又稱全網爬蟲,爬行對象從一些種子URL擴充到整個Web,主要為門戶站點、搜索引擎和大型Web服務提供商采集數據。

2. 聚焦網絡爬蟲

聚焦網絡爬蟲是指選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。與通用網絡爬蟲相比,聚焦網絡爬蟲只需要爬行與主題相關的頁面,極大地節省了硬件和網絡資源,保存的頁面也因數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。聚焦網絡爬蟲是需要我們關注的重點爬蟲類型。

3. 增量式網絡爬蟲

增量式網絡爬蟲是指對已下載網頁采取增量式更新和只爬行新產生的或者已經發生變化的網頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。與周期性爬行和刷新頁面的網絡爬蟲相比,增量式爬蟲只會在需要的時候爬行新產生或發生更新的頁面,并不重新下載沒有發生變化的頁面,可有效減少數據下載量,及時更新已爬行的網頁,減小時間和空間上的耗費,但是增加了爬行算法的復雜度和實現難度。后面的章節將對增量式網絡爬蟲和去重方法做簡要介紹。

4. 深層頁面爬蟲

Web頁面按存在方式分為表層網頁和深層網頁。表層網頁是傳統搜索引擎可以索引的頁面,是以超鏈接可以到達的靜態網頁為主構成的Web頁面。深層網頁是大部分內容不能通過靜態鏈接獲取的,隱藏在搜索表單后的,只有用戶提交一些關鍵詞才能獲得的Web頁面。例如那些用戶注冊后內容才可見的網頁就屬于深層頁面。后面的章節將向讀者介紹讓爬蟲登錄一個網站、爬取深層頁面的方法。

主站蜘蛛池模板: 旬邑县| 沐川县| 中方县| 怀化市| 琼中| 毕节市| 辉南县| 襄城县| 株洲县| 贞丰县| 商水县| 汝阳县| 阳新县| 宝丰县| 博客| 科技| 昌平区| 洛川县| 楚雄市| 沐川县| 图木舒克市| 普陀区| 阳高县| 甘孜县| 沂源县| 女性| 柞水县| 沅江市| 介休市| 鄄城县| 鲁甸县| 白城市| 登封市| 安阳县| 石屏县| 田东县| 安宁市| 罗城| 卓资县| 桦川县| 中牟县|