官术网_书友最值得收藏!

1.3 網(wǎng)絡(luò)爬蟲的組成

接下來,我們將介紹網(wǎng)絡(luò)爬蟲的組成。網(wǎng)絡(luò)爬蟲由控制節(jié)點(diǎn)、爬蟲節(jié)點(diǎn)、資源庫構(gòu)成。

圖1-1所示是網(wǎng)絡(luò)爬蟲的控制節(jié)點(diǎn)和爬蟲節(jié)點(diǎn)的結(jié)構(gòu)關(guān)系。

圖1-1 網(wǎng)絡(luò)爬蟲的控制節(jié)點(diǎn)和爬蟲節(jié)點(diǎn)的結(jié)構(gòu)關(guān)系

可以看到,網(wǎng)絡(luò)爬蟲中可以有多個(gè)控制節(jié)點(diǎn),每個(gè)控制節(jié)點(diǎn)下可以有多個(gè)爬蟲節(jié)點(diǎn),控制節(jié)點(diǎn)之間可以互相通信,同時(shí),控制節(jié)點(diǎn)和其下的各爬蟲節(jié)點(diǎn)之間也可以進(jìn)行互相通信,屬于同一個(gè)控制節(jié)點(diǎn)下的各爬蟲節(jié)點(diǎn)間,亦可以互相通信。

控制節(jié)點(diǎn),也叫作爬蟲的中央控制器,主要負(fù)責(zé)根據(jù)URL地址分配線程,并調(diào)用爬蟲節(jié)點(diǎn)進(jìn)行具體的爬行。

爬蟲節(jié)點(diǎn)會按照相關(guān)的算法,對網(wǎng)頁進(jìn)行具體的爬行,主要包括下載網(wǎng)頁以及對網(wǎng)頁的文本進(jìn)行處理,爬行后,會將對應(yīng)的爬行結(jié)果存儲到對應(yīng)的資源庫中。

主站蜘蛛池模板: 江永县| 怀柔区| 汕尾市| 成安县| 威远县| 江油市| 诸城市| 开封县| 许昌市| 霞浦县| 贵南县| 大足县| 武鸣县| 望江县| 金山区| 聂荣县| 四川省| 凤山县| 双辽市| 杭州市| 永胜县| 东山县| 边坝县| 吉林市| 迁安市| 七台河市| 聂拉木县| 陕西省| 磴口县| 南城县| 肥东县| 安陆市| 禄劝| 义马市| 烟台市| 柳州市| 锡林郭勒盟| 绥滨县| 肥西县| 铜鼓县| 连云港市|