官术网_书友最值得收藏!

第5章
爬蟲庫Urllib

5.1 Urllib簡介

Urllib是Python自帶的標(biāo)準(zhǔn)庫,無須安裝,直接引用即可。Urllib通常用于爬蟲開發(fā)、API(應(yīng)用程序編程接口)數(shù)據(jù)獲取和測試。在Python 2和Python 3中,Urllib在不同版本中的語法有明顯的改變。

Python 2分為Urllib和Urllib2,Urllib2可以接收一個(gè)Request對象,并以此來設(shè)置一個(gè)URL的Headers,但是Urllib只接收一個(gè)URL,意味著不能偽裝用戶代理字符串等。Urllib模塊可以提供進(jìn)行Urlencode的方法,該方法用于GET查詢字符串的生成,Urllib2不具有這樣的功能。這也是Urllib與Urllib2經(jīng)常在一起使用的原因。

在Python 3中,Urllib模塊是一堆可以處理URL的組件集合,就是將Urllib和Urllib2合并在一起使用,并且命名為Urllib。

由于Urllib在不同的Python版本上有明顯的區(qū)別,在實(shí)際開發(fā)中也遇到一些尷尬的情況,其中最為主要的是版本之間的互不兼容所帶來的問題。

在Python 3中,Urllib是一個(gè)收集幾個(gè)模塊來使用URL的軟件包,大致具備以下功能。

● urllib.request:用于打開和讀取URL。

● urllib.error:包含提出的例外urllib.request。

● urllib.parse:用于解析URL。

● urllib.robotparser:用于解析robots.txt文件。

主站蜘蛛池模板: 图片| 宾川县| 浮山县| 维西| 甘洛县| 青海省| 潞西市| 桐梓县| 哈巴河县| 台东市| 肥城市| 镇巴县| 泽普县| 岑溪市| 抚远县| 长岛县| 婺源县| 天峨县| 珠海市| 乌海市| 桂阳县| 安阳县| 洞口县| 安徽省| 娄底市| 定州市| 章丘市| 南开区| 宁夏| 安达市| 子长县| 定边县| 奎屯市| 个旧市| 饶河县| 商丘市| 托里县| 永和县| 柳林县| 宁夏| 慈溪市|