官术网_书友最值得收藏!

1.2 Python網絡爬蟲技術概況

1.2.1 Python中實現HTTP請求

本節主要介紹Python中都有哪些庫和框架可以幫助我們實現網絡爬蟲。這里要特別說明一點的是,本書的代碼和程序全部是在Python 3.6.3版本中實現的,也可以直接在Python 3的其他版本中運行。雖然大部分代碼在Python 2中也可以運行,但并不推薦讀者使用Python 2,畢竟Python 2已經成為過去,Python 3才是未來。

前面已經介紹,網頁下載器是爬蟲的核心部分之一,下載網頁就需要實現HTTP請求,在Python中實現HTTP請求比較常用的主要有兩個庫。

一是Urllib庫。Urllib庫是Python內置的HTTP請求庫,可以直接調用。

二是Requests庫。Requests庫是用Python語言編寫的,基于Urllib,采用Apache2 Licensed開源協議的HTTP庫。它比Urllib更加方便,使用它可以節約我們大量的工作,完全滿足HTTP的測試需求。Requests是一個純Python編寫的、簡單易用的HTTP庫。

這兩種實現HTTP請求的庫中,Requests庫最簡單,功能也最豐富,完全可以滿足HTTP測試需求,是本書中手寫簡單爬蟲的主力庫,推薦讀者學習和使用。至于Urllib庫,后面的章節將做簡單的介紹,讓讀者有所了解。

主站蜘蛛池模板: 江城| 深圳市| 肃南| 保山市| 南陵县| 南岸区| 定西市| 呼和浩特市| 平利县| 通州区| 东乌珠穆沁旗| 涪陵区| 灵璧县| 封丘县| 华安县| 苍梧县| 宝兴县| 双桥区| 潮州市| 漯河市| 平湖市| 巍山| 略阳县| 子洲县| 博兴县| 利川市| 汾阳市| 邳州市| 介休市| 井研县| 黑河市| 北碚区| 霍州市| 柳州市| 邵武市| 孟连| 商丘市| 沙田区| 安阳市| 赤城县| 新邵县|