- 精通Python網絡爬蟲:核心技術、框架與項目實戰
- 韋瑋
- 573字
- 2019-01-05 03:22:41
1.5 爬蟲擴展——聚焦爬蟲
由于聚焦爬蟲可以按對應的主題有目的地進行爬取,并且可以節省大量的服務器資源和帶寬資源,具有很強的實用性,所以在此,我們將對聚焦爬蟲進行詳細講解。圖1-2所示為聚焦爬蟲運行的流程,熟悉該流程后,我們可以更清晰地知道聚焦爬蟲的工作原理和過程。

圖1-2 聚焦爬蟲運行的流程
首先,聚焦爬蟲擁有一個控制中心,該控制中心負責對整個爬蟲系統進行管理和監控,主要包括控制用戶交互、初始化爬行器、確定主題、協調各模塊之間的工作、控制爬行過程等方面。
然后,將初始的URL集合傳遞給URL隊列,頁面爬行模塊會從URL隊列中讀取第一批URL列表,然后根據這些URL地址從互聯網中進行相應的頁面爬取。爬取后,將爬取到的內容傳到頁面數據庫中存儲,同時,在爬行過程中,會爬取到一些新的URL,此時,需要根據我們所定的主題使用鏈接過濾模塊過濾掉無關鏈接,再將剩下來的URL鏈接根據主題使用鏈接評價模塊或內容評價模塊進行優先級的排序。完成后,將新的URL地址傳遞到URL隊列中,供頁面爬行模塊使用。另一方面,將頁面爬取并存放到頁面數據庫后,需要根據主題使用頁面分析模塊對爬取到的頁面進行頁面分析處理,并根據處理結果建立索引數據庫,用戶檢索對應信息時,可以從索引數據庫中進行相應的檢索,并得到對應的結果。
這就是聚焦爬蟲的主要工作流程,了解聚焦爬蟲的主要工作流程有助于我們編寫聚焦爬蟲,使編寫的思路更加清晰。