官术网_书友最值得收藏!

1.4 網絡爬蟲的類型

現在我們已經基本了解了網絡爬蟲的組成,那么網絡爬蟲具體有哪些類型呢?

網絡爬蟲按照實現的技術和結構可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中,通常是這幾類爬蟲的組合體。

首先我們為大家介紹通用網絡爬蟲(General Purpose Web Crawler)。通用網絡爬蟲又叫作全網爬蟲,顧名思義,通用網絡爬蟲爬取的目標資源在全互聯網中。通用網絡爬蟲所爬取的目標數據是巨大的,并且爬行的范圍也是非常大的,正是由于其爬取的數據是海量數據,故而對于這類爬蟲來說,其爬取的性能要求是非常高的。這種網絡爬蟲主要應用于大型搜索引擎中,有非常高的應用價值。

通用網絡爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數據庫、鏈接過濾模塊等構成。通用網絡爬蟲在爬行的時候會采取一定的爬行策略,主要有深度優先爬行策略和廣度優先爬行策略。具體的爬行策略,我們將在第3章講解,在此,我們只需要知道通用網絡爬蟲的基本構成和主要的爬行策略。

聚焦網絡爬蟲(Focused Crawler)也叫主題網絡爬蟲,顧名思義,聚焦網絡爬蟲是按照預先定義好的主題有選擇地進行網頁爬取的一種爬蟲,聚焦網絡爬蟲不像通用網絡爬蟲一樣將目標資源定位在全互聯網中,而是將爬取的目標網頁定位在與主題相關的頁面中,此時,可以大大節省爬蟲爬取時所需的帶寬資源和服務器資源。聚焦網絡爬蟲主要應用在對特定信息的爬取中,主要為某一類特定的人群提供服務。

聚焦網絡爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數據庫、鏈接過濾模塊、內容評價模塊、鏈接評價模塊等構成。內容評價模塊可以評價內容的重要性,同理,鏈接評價模塊也可以評價出鏈接的重要性,然后根據鏈接和內容的重要性,可以確定哪些頁面優先訪問。聚焦網絡爬蟲的爬行策略主要有4種,即基于內容評價的爬行策略、基于鏈接評價的爬行策略、基于增強學習的爬行策略和基于語境圖的爬行策略。關于聚焦網絡爬蟲具體的爬行策略,我們將在1.5節進行詳細分析。

增量式網絡爬蟲(Incremental Web Crawler),所謂增量式,對應著增量式更新。增量式更新指的是在更新的時候只更新改變的地方,而未改變的地方則不更新,所以增量式網絡爬蟲,在爬取網頁的時候,只爬取內容發生變化的網頁或者新產生的網頁,對于未發生內容變化的網頁,則不會爬取。增量式網絡爬蟲在一定程度上能夠保證所爬取的頁面,盡可能是新頁面。

深層網絡爬蟲(Deep Web Crawler),可以爬取互聯網中的深層頁面,在此我們首先需要了解深層頁面的概念。

在互聯網中,網頁按存在方式分類,可以分為表層頁面和深層頁面。所謂的表層頁面,指的是不需要提交表單,使用靜態的鏈接就能夠到達的靜態頁面;而深層頁面則隱藏在表單后面,不能通過靜態鏈接直接獲取,是需要提交一定的關鍵詞之后才能夠獲取得到的頁面。在互聯網中,深層頁面的數量往往比表層頁面的數量要多很多,故而,我們需要想辦法爬取深層頁面。

爬取深層頁面,需要想辦法自動填寫好對應表單,所以,深層網絡爬蟲最重要的部分即為表單填寫部分。

深層網絡爬蟲主要由URL列表、LVS列表(LVS指的是標簽/數值集合,即填充表單的數據源)、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器、響應分析器等部分構成。

深層網絡爬蟲表單的填寫有兩種類型:第一種是基于領域知識的表單填寫,簡單來說就是建立一個填寫表單的關鍵詞庫,在需要填寫的時候,根據語義分析選擇對應的關鍵詞進行填寫;第二種是基于網頁結構分析的表單填寫,簡單來說,這種填寫方式一般是領域知識有限的情況下使用,這種方式會根據網頁結構進行分析,并自動地進行表單填寫。

以上,為大家介紹了網絡爬蟲中常見的幾種類型,希望讀者能夠對網絡爬蟲的分類有一個基本的了解。

主站蜘蛛池模板: 友谊县| 海晏县| 白山市| 江北区| 五华县| 平南县| 保德县| 梁河县| 南安市| 万源市| 文水县| 尤溪县| 岳阳市| 锡林浩特市| 三原县| 尼勒克县| 阜宁县| 石首市| 攀枝花市| 黄石市| 呈贡县| 温州市| 兴山县| 明溪县| 开原市| 德兴市| 金乡县| 丽江市| 青海省| 佛冈县| 保靖县| 沅江市| 龙岩市| 蛟河市| 长白| 芒康县| 资阳市| 随州市| 钦州市| 米易县| 孝昌县|