- 實(shí)戰(zhàn)Python網(wǎng)絡(luò)爬蟲
- 黃永祥
- 372字
- 2019-11-22 18:44:39
第5章
爬蟲庫Urllib
5.1 Urllib簡介
Urllib是Python自帶的標(biāo)準(zhǔn)庫,無須安裝,直接引用即可。Urllib通常用于爬蟲開發(fā)、API(應(yīng)用程序編程接口)數(shù)據(jù)獲取和測試。在Python 2和Python 3中,Urllib在不同版本中的語法有明顯的改變。
Python 2分為Urllib和Urllib2,Urllib2可以接收一個(gè)Request對象,并以此來設(shè)置一個(gè)URL的Headers,但是Urllib只接收一個(gè)URL,意味著不能偽裝用戶代理字符串等。Urllib模塊可以提供進(jìn)行Urlencode的方法,該方法用于GET查詢字符串的生成,Urllib2不具有這樣的功能。這也是Urllib與Urllib2經(jīng)常在一起使用的原因。
在Python 3中,Urllib模塊是一堆可以處理URL的組件集合,就是將Urllib和Urllib2合并在一起使用,并且命名為Urllib。
由于Urllib在不同的Python版本上有明顯的區(qū)別,在實(shí)際開發(fā)中也遇到一些尷尬的情況,其中最為主要的是版本之間的互不兼容所帶來的問題。
在Python 3中,Urllib是一個(gè)收集幾個(gè)模塊來使用URL的軟件包,大致具備以下功能。
● urllib.request:用于打開和讀取URL。
● urllib.error:包含提出的例外urllib.request。
● urllib.parse:用于解析URL。
● urllib.robotparser:用于解析robots.txt文件。
推薦閱讀
- Unreal Engine Physics Essentials
- Learning Chef
- Learning Linux Binary Analysis
- RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南
- Groovy for Domain:specific Languages(Second Edition)
- Android Native Development Kit Cookbook
- Spring+Spring MVC+MyBatis整合開發(fā)實(shí)戰(zhàn)
- C#程序設(shè)計(jì)教程(第3版)
- 創(chuàng)意UI Photoshop玩轉(zhuǎn)移動(dòng)UI設(shè)計(jì)
- 算法圖解
- 大學(xué)計(jì)算機(jī)應(yīng)用基礎(chǔ)(Windows 7+Office 2010)(IC3)
- Getting Started with Web Components
- 算法精解:C語言描述
- 青少年P(guān)ython趣味編程
- 匯編語言程序設(shè)計(jì)