- Python 3反爬蟲原理與繞過實戰
- 韋世東
- 363字
- 2021-02-07 09:17:45
第2章 Web網站的構成和頁面渲染
爬蟲與反爬蟲的較量總是圍繞著Web網站展開,爬蟲的主要目的是獲取Web網站中的內容。開發者要想限制爬蟲獲取數據,就需要了解HTML從文檔變成內容豐富的頁面所要經歷的每個階段,例如網絡請求、資源匹配、數據傳輸和頁面渲染等。所以在學習反爬蟲之前,我們有必要了解Web網站的構成和頁面渲染過程的相關知識。
Web網站由服務器端和客戶端組成,服務器端主要負責為客戶端提供文件資源提取和數據保存等服務,而客戶端則將服務器端的資源轉化為用戶可讀的內容。服務器端與客戶端之間的信息交互需要通過網絡進行傳輸,而網絡傳輸會根據對應的網絡協議進行,三者之間的關系如圖2-1所示。要注意的是,客戶端與服務器端必須使用相同的網絡協議才能夠實現通信。

圖2-1 服務器端、客戶端與網絡協議間的關系
在本章中,我們將了解常見的網絡協議、請求與響應、頁面渲染等知識。
推薦閱讀