- Python 3反爬蟲原理與繞過實戰
- 韋世東
- 931字
- 2021-02-07 09:17:41
本書內容
本書共10章,章節內容歸納如下。
? 第1章介紹了本書所涉及的大部分開發環境配置。本章無須完整閱讀,在需要時查閱即可。
? 第2章介紹了Web網站的構成和頁面渲染方面的知識。了解服務器端、客戶端的組成,工作形式和通信協議,這會為我們后面的學習打下堅實的基礎。
? 第3章簡單講述了動態網頁和靜態網頁對爬蟲造成的影響。回顧了一些爬蟲方面的基本概念和知識,并對反爬蟲這一概念進行了介紹和約定。
? 第4章以信息校驗型反爬蟲為主線,講解了基于HTTP協議和WebSocket協議對客戶端請求進行校驗的反爬蟲原理和具體實現方法,并以爬蟲工程師的角度演示了繞過過程。
? 第5章介紹了常見的動態渲染反爬蟲,深入了解其原理,并介紹了幾種應對方法和多種渲染工具的基本用法。這一章通過場景假設的方式來講解不同需求的應對方法。
? 第6章介紹了目前被廣泛使用的文本混淆反爬蟲知識,包括圖片偽裝、CSS偏移、SVG映射和字體反爬蟲等。每個案例均以爬蟲工程師的角度演示繞過過程,再剖析其原理。最后討論了文本混淆反爬蟲的通用解決方法。
? 第7章介紹了特征識別反爬蟲,包括繞過過程和實現原理。相對其他反爬蟲手段來說,特征識別反爬蟲具有一定的隱蔽性。它在爬蟲程序發起時對其進行識別和過濾,這能夠有效地減輕服務器的壓力。
? 第8章介紹了App數據爬取的關鍵和常用的反爬蟲手段,包括代碼混淆、參數加密和安全加固等,同時還介紹了抓包和App逆向方面的知識。
? 第9章是驗證碼相關的內容,包含市面上常見的驗證碼類型,例如字符驗證碼、計算型驗證碼和行為驗證碼。每個驗證碼案例均以爬蟲工程師的角度演示繞過過程,再以開發者的角度演示驗證碼的實現過程。部分驗證碼的繞過用到了深度學習中的卷積神經網絡和用于目標檢測的YOLO算法。在最后一節中,我們對商用驗證碼廠商的產品進行了基本介紹和難度分析。
? 第10章是綜合知識的介紹。首先介紹了常見的編碼和加密原理,并以對應的RFC文檔為基礎,講解編碼、解碼、加密和解密的過程。然后介紹了常見的JavaScript代碼混淆知識,講解了混淆原理和還原技巧,并動手實現了一個簡單的混淆器。接著學習了前端禁止事件方面的知識,如禁止鼠標右鍵、禁止鍵盤按鍵等。最后通過幾個案例了解了與爬蟲相關的法律知識和風險點,并列出了《數據安全管理辦法(征求意見稿)》中與爬蟲相關的條例。
- Java面向對象軟件開發
- C# Programming Cookbook
- Manga Studio Ex 5 Cookbook
- Wireshark Network Security
- Lua程序設計(第4版)
- Julia Cookbook
- 微信小程序項目開發實戰
- Getting Started with Gulp
- C語言程序設計教程
- Integrating Facebook iOS SDK with Your Application
- 物聯網系統架構設計與邊緣計算(原書第2版)
- Python預測之美:數據分析與算法實戰(雙色)
- Android嵌入式系統程序開發(基于Cortex-A8)
- SAS編程演義
- Unity 5 Game Optimization