官术网_书友最值得收藏!

2.8 本章小結

本章主要介紹了與編寫爬蟲程序相關的Web前端開發技術。

前端開發技術是爬蟲開發人員必備技能之一,也是編寫爬蟲程序的基礎。前端技術的主要作用是分析各類網站的設計架構,以便有針對性地編寫爬蟲腳本。從整個爬蟲開發周期來看,分析網站架構是最為耗時的一環,也是爬蟲開發的核心之一,可以說,爬蟲的開發都是基于網站的分析為前提。

關于前端開發技術,讀者應重點掌握以下內容。

● HTTP與HTTPS:互聯網上應用最為廣泛的一種網絡協議。目前所有網站開發都基于該協議,也是網站的實現原理。

● 請求頭:基于HTTP與HTTPS協議實現,其作用是在通信之間實現信息傳遞。熟知各種請求類型,對爬蟲中編寫請求頭有指導性作用。

● Cookies:存儲在用戶主機瀏覽器中的文本文件,主要讓服務器識別各個用戶身份信息。

● HTML:服務器返回的網頁內容,一般由服務器后臺生成。網站大部分數據來源于此,熟悉HTML布局和各個標簽的作用,有利于數據抓取和清洗。

● JavaScript:主要實現網頁的動態功能及用戶交互。要懂得分析JavaScript代碼,尤其是數據加密處理。

● JSON:表示一個JavaScript對象的信息,本質是一個特殊的字符串。

● Ajax:主要是前端數據加載和渲染技術,其響應內容大部分以JSON格式為主。

主站蜘蛛池模板: 布拖县| 鄂尔多斯市| 略阳县| 南澳县| 托克逊县| 仙桃市| 白河县| 二连浩特市| 常德市| 宾川县| 颍上县| 陇川县| 斗六市| 黄大仙区| 库伦旗| 枣强县| 盘山县| 大庆市| 黎城县| 南昌市| 松潘县| 沈丘县| 丰台区| 中西区| 平远县| 马公市| 定西市| 锦屏县| 洛宁县| 石家庄市| 石渠县| 北安市| 浏阳市| 灵石县| 闽侯县| 蓬安县| 内黄县| 万州区| 磐石市| 海门市| 井陉县|