官术网_书友最值得收藏!

1.3 網絡爬蟲流程

普通網絡爬蟲的流程大致如圖1.4所示,一般包含URL隊列模塊、頁面內容獲取模塊、頁面解析模塊、數據存儲模塊和URL過濾模塊。具體流程可描述如下。

圖1.4 網絡爬蟲的流程

步驟1,選取部分種子URL(或初始URL),將其放入待采集的隊列中。如在Java中,可以放入List、LinkedList及Queue中。

步驟2,判斷URL隊列是否為空,如果為空則結束程序的執行,否則執行步驟3。

步驟3,從待采集的URL隊列中取出一個URL,獲取URL對應的網頁內容。在此步驟需要使用HTTP響應狀態碼(如200和403等)判斷是否成功獲得了數據,如響應成功則執行解析操作;如響應不成功,則將其重新放入待采集URL隊列(注意這里需要過濾掉無效URL)。

步驟4,針對響應成功后獲取的數據,執行頁面解析操作。此步驟根據用戶需求獲取網頁內容中的部分字段,如汽車論壇帖子的id、標題和發表時間等。

步驟5,對步驟4解析的數據執行數據存儲操作。

主站蜘蛛池模板: 河北区| 山东省| 桃园市| 米泉市| 秦皇岛市| 伊宁县| 湖州市| 仁怀市| 巫溪县| 庄浪县| 加查县| 青海省| 洛南县| 无锡市| 瑞金市| 桐城市| 县级市| 古交市| 苏尼特右旗| 汨罗市| 隆昌县| 肥城市| 视频| 亚东县| 慈利县| 郴州市| 西乌珠穆沁旗| 永嘉县| 镶黄旗| 册亨县| 瑞安市| 斗六市| 东兴市| 建平县| 张家界市| 永城市| 伊金霍洛旗| 井冈山市| 堆龙德庆县| 林甸县| 杨浦区|