三国单机版手机游戏下载

書名：精通Python網絡爬蟲：核心技術、框架與項目實戰
作者名：韋瑋
本章字數： 573字
更新時間： 2019-01-05 03:22:41

1.5 爬蟲擴展——聚焦爬蟲

由于聚焦爬蟲可以按對應的主題有目的地進行爬取，并且可以節省大量的服務器資源和帶寬資源，具有很強的實用性，所以在此，我們將對聚焦爬蟲進行詳細講解。圖1-2所示為聚焦爬蟲運行的流程，熟悉該流程后，我們可以更清晰地知道聚焦爬蟲的工作原理和過程。

圖1-2 聚焦爬蟲運行的流程

首先，聚焦爬蟲擁有一個控制中心，該控制中心負責對整個爬蟲系統進行管理和監控，主要包括控制用戶交互、初始化爬行器、確定主題、協調各模塊之間的工作、控制爬行過程等方面。

然后，將初始的URL集合傳遞給URL隊列，頁面爬行模塊會從URL隊列中讀取第一批URL列表，然后根據這些URL地址從互聯網中進行相應的頁面爬取。爬取后，將爬取到的內容傳到頁面數據庫中存儲，同時，在爬行過程中，會爬取到一些新的URL，此時，需要根據我們所定的主題使用鏈接過濾模塊過濾掉無關鏈接，再將剩下來的URL鏈接根據主題使用鏈接評價模塊或內容評價模塊進行優先級的排序。完成后，將新的URL地址傳遞到URL隊列中，供頁面爬行模塊使用。另一方面，將頁面爬取并存放到頁面數據庫后，需要根據主題使用頁面分析模塊對爬取到的頁面進行頁面分析處理，并根據處理結果建立索引數據庫，用戶檢索對應信息時，可以從索引數據庫中進行相應的檢索，并得到對應的結果。

這就是聚焦爬蟲的主要工作流程，了解聚焦爬蟲的主要工作流程有助于我們編寫聚焦爬蟲，使編寫的思路更加清晰。

官术网_书友最值得收藏!

精通Python網絡爬蟲：核心技術、框架與項目實戰

1.5 爬蟲擴展——聚焦爬蟲