官术网_书友最值得收藏!

第2章 Web網站的構成和頁面渲染

爬蟲與反爬蟲的較量總是圍繞著Web網站展開,爬蟲的主要目的是獲取Web網站中的內容。開發者要想限制爬蟲獲取數據,就需要了解HTML從文檔變成內容豐富的頁面所要經歷的每個階段,例如網絡請求、資源匹配、數據傳輸和頁面渲染等。所以在學習反爬蟲之前,我們有必要了解Web網站的構成和頁面渲染過程的相關知識。

Web網站由服務器端和客戶端組成,服務器端主要負責為客戶端提供文件資源提取和數據保存等服務,而客戶端則將服務器端的資源轉化為用戶可讀的內容。服務器端與客戶端之間的信息交互需要通過網絡進行傳輸,而網絡傳輸會根據對應的網絡協議進行,三者之間的關系如圖2-1所示。要注意的是,客戶端與服務器端必須使用相同的網絡協議才能夠實現通信。

圖2-1 服務器端、客戶端與網絡協議間的關系

在本章中,我們將了解常見的網絡協議、請求與響應、頁面渲染等知識。

主站蜘蛛池模板: 修文县| 临澧县| 隆安县| 景东| 青海省| 嵊州市| 泽州县| 明光市| 鲁甸县| 开封县| 济源市| 柏乡县| 海城市| 洛扎县| 温宿县| 萨嘎县| 英吉沙县| 昭通市| 盖州市| 崇阳县| 介休市| 金山区| 太谷县| 丹阳市| 库尔勒市| 奉节县| 平南县| 醴陵市| 台前县| 昔阳县| 通化县| 凤冈县| 大埔县| 塔河县| 日土县| 铜梁县| 莫力| 建瓯市| 比如县| 普兰店市| 枣庄市|