官术网_书友最值得收藏!

1.1.3 簡單網(wǎng)絡(luò)爬蟲的架構(gòu)

前面已經(jīng)介紹網(wǎng)絡(luò)爬蟲的兩個主要任務(wù)是下載目標(biāo)網(wǎng)頁和從網(wǎng)頁中解析信息。為了完成這兩個任務(wù),一個簡單的網(wǎng)絡(luò)爬蟲就要包含圖1-2所示的4個部分。

0

圖1-2 簡單網(wǎng)絡(luò)爬蟲的架構(gòu)

URL管理器:管理將要爬取的URL,防止重復(fù)抓取和循環(huán)抓取。

網(wǎng)頁下載器:這是下載網(wǎng)頁的組件,用來將互聯(lián)網(wǎng)上URL對應(yīng)的網(wǎng)頁下載到本地,是爬蟲的核心部分之一。

網(wǎng)頁解析器:這是解析網(wǎng)頁的組件,用來從網(wǎng)頁中提取有價值的數(shù)據(jù),是爬蟲的另一個核心部分。

輸出管理器:這是保存信息的組件,用來把解析出來的內(nèi)容輸出到文件或數(shù)據(jù)庫中。

以上4個部分是一個簡單的爬蟲架構(gòu),這里通過介紹簡單的爬蟲架構(gòu),讓讀者對爬蟲有一個直觀的印象,后面的章節(jié)將詳細(xì)講解網(wǎng)絡(luò)爬蟲架構(gòu)的實現(xiàn)。

主站蜘蛛池模板: 科尔| 壤塘县| 新巴尔虎左旗| 德化县| 田东县| 肥东县| 漠河县| 福建省| 吉木萨尔县| 宁阳县| 安阳市| 昆明市| 富蕴县| 肃宁县| 新建县| 辉南县| 巴林右旗| 启东市| 五大连池市| 从江县| 姚安县| 海宁市| 安阳县| 昌江| 兴仁县| 兖州市| 清徐县| 中阳县| 景谷| 邹平县| 台中市| 壤塘县| 府谷县| 自治县| 金门县| 西藏| 沈丘县| 什邡市| 达拉特旗| 驻马店市| 祁东县|