- 網絡數據采集技術:Java網絡爬蟲實戰
- 錢洋等
- 363字
- 2020-09-29 15:49:46
1.3 網絡爬蟲流程
普通網絡爬蟲的流程大致如圖1.4所示,一般包含URL隊列模塊、頁面內容獲取模塊、頁面解析模塊、數據存儲模塊和URL過濾模塊。具體流程可描述如下。

圖1.4 網絡爬蟲的流程
步驟1,選取部分種子URL(或初始URL),將其放入待采集的隊列中。如在Java中,可以放入List、LinkedList及Queue中。
步驟2,判斷URL隊列是否為空,如果為空則結束程序的執行,否則執行步驟3。
步驟3,從待采集的URL隊列中取出一個URL,獲取URL對應的網頁內容。在此步驟需要使用HTTP響應狀態碼(如200和403等)判斷是否成功獲得了數據,如響應成功則執行解析操作;如響應不成功,則將其重新放入待采集URL隊列(注意這里需要過濾掉無效URL)。
步驟4,針對響應成功后獲取的數據,執行頁面解析操作。此步驟根據用戶需求獲取網頁內容中的部分字段,如汽車論壇帖子的id、標題和發表時間等。
步驟5,對步驟4解析的數據執行數據存儲操作。
推薦閱讀
- The Complete Rust Programming Reference Guide
- Facebook Application Development with Graph API Cookbook
- Python深度學習
- TestNG Beginner's Guide
- PostgreSQL 11從入門到精通(視頻教學版)
- Python 3破冰人工智能:從入門到實戰
- SharePoint Development with the SharePoint Framework
- 精通Python自動化編程
- Visual Basic程序設計教程
- 劍指大數據:企業級數據倉庫項目實戰(在線教育版)
- Python函數式編程(第2版)
- SEO教程:搜索引擎優化入門與進階(第3版)
- Java程序設計實用教程(第2版)
- Java核心技術速學版(第3版)
- jQuery基礎教程(第4版)