- Python網絡爬蟲實例教程(視頻講解版)
- 齊文光
- 386字
- 2020-10-13 17:53:21
1.2 Python網絡爬蟲技術概況
1.2.1 Python中實現HTTP請求
本節主要介紹Python中都有哪些庫和框架可以幫助我們實現網絡爬蟲。這里要特別說明一點的是,本書的代碼和程序全部是在Python 3.6.3版本中實現的,也可以直接在Python 3的其他版本中運行。雖然大部分代碼在Python 2中也可以運行,但并不推薦讀者使用Python 2,畢竟Python 2已經成為過去,Python 3才是未來。
前面已經介紹,網頁下載器是爬蟲的核心部分之一,下載網頁就需要實現HTTP請求,在Python中實現HTTP請求比較常用的主要有兩個庫。
一是Urllib庫。Urllib庫是Python內置的HTTP請求庫,可以直接調用。
二是Requests庫。Requests庫是用Python語言編寫的,基于Urllib,采用Apache2 Licensed開源協議的HTTP庫。它比Urllib更加方便,使用它可以節約我們大量的工作,完全滿足HTTP的測試需求。Requests是一個純Python編寫的、簡單易用的HTTP庫。
這兩種實現HTTP請求的庫中,Requests庫最簡單,功能也最豐富,完全可以滿足HTTP測試需求,是本書中手寫簡單爬蟲的主力庫,推薦讀者學習和使用。至于Urllib庫,后面的章節將做簡單的介紹,讓讀者有所了解。
推薦閱讀
- ASP.NET Web API:Build RESTful web applications and services on the .NET framework
- 大學計算機基礎實驗教程
- 零基礎玩轉區塊鏈
- Silverlight魔幻銀燈
- The DevOps 2.4 Toolkit
- Windows Server 2016 Automation with PowerShell Cookbook(Second Edition)
- Scala編程實戰(原書第2版)
- Django 3.0入門與實踐
- ScratchJr趣味編程動手玩:讓孩子用編程講故事
- OpenStack Networking Essentials
- Spring 5 Design Patterns
- Python網絡爬蟲實例教程(視頻講解版)
- Shopify Application Development
- 分布式數據庫HBase案例教程
- Clojure Web Development Essentials