- 精通Python網(wǎng)絡(luò)爬蟲:核心技術(shù)、框架與項(xiàng)目實(shí)戰(zhàn)
- 韋瑋
- 311字
- 2019-01-05 03:22:40
1.3 網(wǎng)絡(luò)爬蟲的組成
接下來,我們將介紹網(wǎng)絡(luò)爬蟲的組成。網(wǎng)絡(luò)爬蟲由控制節(jié)點(diǎn)、爬蟲節(jié)點(diǎn)、資源庫構(gòu)成。
圖1-1所示是網(wǎng)絡(luò)爬蟲的控制節(jié)點(diǎn)和爬蟲節(jié)點(diǎn)的結(jié)構(gòu)關(guān)系。

圖1-1 網(wǎng)絡(luò)爬蟲的控制節(jié)點(diǎn)和爬蟲節(jié)點(diǎn)的結(jié)構(gòu)關(guān)系
可以看到,網(wǎng)絡(luò)爬蟲中可以有多個(gè)控制節(jié)點(diǎn),每個(gè)控制節(jié)點(diǎn)下可以有多個(gè)爬蟲節(jié)點(diǎn),控制節(jié)點(diǎn)之間可以互相通信,同時(shí),控制節(jié)點(diǎn)和其下的各爬蟲節(jié)點(diǎn)之間也可以進(jìn)行互相通信,屬于同一個(gè)控制節(jié)點(diǎn)下的各爬蟲節(jié)點(diǎn)間,亦可以互相通信。
控制節(jié)點(diǎn),也叫作爬蟲的中央控制器,主要負(fù)責(zé)根據(jù)URL地址分配線程,并調(diào)用爬蟲節(jié)點(diǎn)進(jìn)行具體的爬行。
爬蟲節(jié)點(diǎn)會按照相關(guān)的算法,對網(wǎng)頁進(jìn)行具體的爬行,主要包括下載網(wǎng)頁以及對網(wǎng)頁的文本進(jìn)行處理,爬行后,會將對應(yīng)的爬行結(jié)果存儲到對應(yīng)的資源庫中。
推薦閱讀
- JavaScript框架設(shè)計(jì)
- 大數(shù)據(jù)處理系統(tǒng):Hadoop源代碼情景分析
- Android 網(wǎng)絡(luò)開發(fā)與應(yīng)用實(shí)戰(zhàn)詳解
- Java高手真經(jīng)·編程基礎(chǔ)卷:Java核心編程技術(shù)
- 21天學(xué)通C++(第7版)
- Swift權(quán)威指南
- 卡爾曼濾波原理及應(yīng)用:MATLAB仿真(第2版)
- 偉大的小細(xì)節(jié):互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)中的微創(chuàng)新思維
- Spring in Action(第二版)中文版
- 持續(xù)交付2.0:業(yè)務(wù)引領(lǐng)的DevOps精要(增訂本)
- 軟件項(xiàng)目管理案例教程(第5版)
- Scrum捷徑:敏捷策略、工具與技巧
- x86匯編與逆向工程:軟件破解與防護(hù)的藝術(shù)
- 軟件安全開發(fā)
- PHP與MySQL高性能應(yīng)用開發(fā)