- Python網(wǎng)絡(luò)爬蟲實例教程(視頻講解版)
- 齊文光
- 306字
- 2020-10-13 17:53:20
1.1.3 簡單網(wǎng)絡(luò)爬蟲的架構(gòu)
前面已經(jīng)介紹網(wǎng)絡(luò)爬蟲的兩個主要任務(wù)是下載目標(biāo)網(wǎng)頁和從網(wǎng)頁中解析信息。為了完成這兩個任務(wù),一個簡單的網(wǎng)絡(luò)爬蟲就要包含圖1-2所示的4個部分。

圖1-2 簡單網(wǎng)絡(luò)爬蟲的架構(gòu)
URL管理器:管理將要爬取的URL,防止重復(fù)抓取和循環(huán)抓取。
網(wǎng)頁下載器:這是下載網(wǎng)頁的組件,用來將互聯(lián)網(wǎng)上URL對應(yīng)的網(wǎng)頁下載到本地,是爬蟲的核心部分之一。
網(wǎng)頁解析器:這是解析網(wǎng)頁的組件,用來從網(wǎng)頁中提取有價值的數(shù)據(jù),是爬蟲的另一個核心部分。
輸出管理器:這是保存信息的組件,用來把解析出來的內(nèi)容輸出到文件或數(shù)據(jù)庫中。
以上4個部分是一個簡單的爬蟲架構(gòu),這里通過介紹簡單的爬蟲架構(gòu),讓讀者對爬蟲有一個直觀的印象,后面的章節(jié)將詳細(xì)講解網(wǎng)絡(luò)爬蟲架構(gòu)的實現(xiàn)。
推薦閱讀
- 程序員面試筆試寶典(第3版)
- Mastering Visual Studio 2017
- Scratch 3.0少兒編程與邏輯思維訓(xùn)練
- Java面向?qū)ο蟪绦蜷_發(fā)及實戰(zhàn)
- Mastering KnockoutJS
- Getting Started with Python Data Analysis
- Java 9模塊化開發(fā):核心原則與實踐
- 區(qū)塊鏈底層設(shè)計Java實戰(zhàn)
- 從零開始學(xué)Linux編程
- Julia High Performance(Second Edition)
- 寫給青少年的人工智能(Python版·微課視頻版)
- Jakarta EE Cookbook
- 微服務(wù)設(shè)計
- 深入實踐C++模板編程
- Mastering React Test:Driven Development