- 實戰(zhàn)Python網(wǎng)絡(luò)爬蟲
- 黃永祥
- 7字
- 2019-11-22 18:44:44
第8章
爬蟲庫Requests-HTML
8.1 簡介及安裝
Requests-HTML是在Requests的基礎(chǔ)上進一步封裝,兩者都是由同一個開發(fā)者開發(fā)。Requests-HTML除了包含Requests的所有功能之外,還新增了數(shù)據(jù)清洗和Ajax數(shù)據(jù)動態(tài)渲染。
數(shù)據(jù)清洗是由lxml和PyQuery模塊實現(xiàn),這兩個模塊分別支持XPath Selectors和CSS Selectors定位,通過XPath或CSS定位,可以精準地提取網(wǎng)頁里的數(shù)據(jù)。
Ajax數(shù)據(jù)動態(tài)渲染是將網(wǎng)頁的動態(tài)數(shù)據(jù)加載到網(wǎng)頁上再抓取。網(wǎng)頁數(shù)據(jù)可以使用Ajax向服務(wù)器發(fā)送HTTP請求,再由JavaScript完成數(shù)據(jù)渲染,如果直接向網(wǎng)頁的URL地址發(fā)送HTTP請求,并且網(wǎng)頁的部分數(shù)據(jù)是來自Ajax,那么,得到的網(wǎng)頁信息就會有所缺失。而Requests-HTML可以將Ajax動態(tài)數(shù)據(jù)加載到網(wǎng)頁信息,無需爬蟲開發(fā)者分析Ajax的請求信息。
Requests-HTML的安裝可使用pip指令完成,但Requests-HTML只支持Python 3.6以上的版本。本書以Python 3.7為例,在CMD窗口輸入安裝指令pip install requests-html,等待安裝完成即可。
在CMD窗口進入Python交互模式,通過導(dǎo)入requests-html模塊并輸出模塊里的屬性DEFAULT_URL的屬性值,從而驗證requests-html模塊是否安裝成功,如下所示:

- Python數(shù)據(jù)分析入門與實戰(zhàn)
- MATLAB圖像處理超級學習手冊
- Android Development with Kotlin
- Raspberry Pi 2 Server Essentials
- ASP.NET 3.5程序設(shè)計與項目實踐
- Hands-On Functional Programming with TypeScript
- Spring技術(shù)內(nèi)幕:深入解析Spring架構(gòu)與設(shè)計原理(第2版)
- Arduino可穿戴設(shè)備開發(fā)
- Oracle實用教程
- 貫通Tomcat開發(fā)
- Advanced Python Programming
- OpenCV 3.0 Computer Vision with Java
- Puppet 5 Beginner's Guide(Third Edition)
- 一步一步學Spring Boot:微服務(wù)項目實戰(zhàn)(第2版)
- Getting Started with the Lazarus IDE