官术网_书友最值得收藏!

1.5 爬蟲擴展——聚焦爬蟲

由于聚焦爬蟲可以按對應的主題有目的地進行爬取,并且可以節省大量的服務器資源和帶寬資源,具有很強的實用性,所以在此,我們將對聚焦爬蟲進行詳細講解。圖1-2所示為聚焦爬蟲運行的流程,熟悉該流程后,我們可以更清晰地知道聚焦爬蟲的工作原理和過程。

圖1-2 聚焦爬蟲運行的流程

首先,聚焦爬蟲擁有一個控制中心,該控制中心負責對整個爬蟲系統進行管理和監控,主要包括控制用戶交互、初始化爬行器、確定主題、協調各模塊之間的工作、控制爬行過程等方面。

然后,將初始的URL集合傳遞給URL隊列,頁面爬行模塊會從URL隊列中讀取第一批URL列表,然后根據這些URL地址從互聯網中進行相應的頁面爬取。爬取后,將爬取到的內容傳到頁面數據庫中存儲,同時,在爬行過程中,會爬取到一些新的URL,此時,需要根據我們所定的主題使用鏈接過濾模塊過濾掉無關鏈接,再將剩下來的URL鏈接根據主題使用鏈接評價模塊或內容評價模塊進行優先級的排序。完成后,將新的URL地址傳遞到URL隊列中,供頁面爬行模塊使用。另一方面,將頁面爬取并存放到頁面數據庫后,需要根據主題使用頁面分析模塊對爬取到的頁面進行頁面分析處理,并根據處理結果建立索引數據庫,用戶檢索對應信息時,可以從索引數據庫中進行相應的檢索,并得到對應的結果。

這就是聚焦爬蟲的主要工作流程,了解聚焦爬蟲的主要工作流程有助于我們編寫聚焦爬蟲,使編寫的思路更加清晰。

主站蜘蛛池模板: 深泽县| 丁青县| 牡丹江市| 乌什县| 虎林市| 佳木斯市| 长乐市| 商城县| 扶绥县| 射洪县| 化州市| 达孜县| 二手房| 义乌市| 谢通门县| 太白县| 精河县| 军事| 河北省| 阿拉善左旗| 威远县| 鹰潭市| 龙海市| 揭东县| 临沂市| 汉沽区| 图木舒克市| 恭城| 富顺县| 通海县| 连云港市| 涿州市| 边坝县| 诸城市| 寻甸| 乐安县| 灌阳县| 巴林右旗| 滦南县| 桓台县| 沾益县|