- 精通Python網絡爬蟲:核心技術、框架與項目實戰
- 韋瑋
- 2202字
- 2019-01-05 03:22:39
前言
為什么寫這本書
網絡爬蟲其實很早就出現了,最開始網絡爬蟲主要應用在各種搜索引擎中。在搜索引擎中,主要使用通用網絡爬蟲對網頁進行爬取及存儲。
隨著大數據時代的到來,我們經常需要在海量數據的互聯網環境中搜集一些特定的數據并對其進行分析,我們可以使用網絡爬蟲對這些特定的數據進行爬取,并對一些無關的數據進行過濾,將目標數據篩選出來。對特定的數據進行爬取的爬蟲,我們將其稱為聚焦網絡爬蟲。在大數據時代,聚焦網絡爬蟲的應用需求越來越大。
目前在國內Python網絡爬蟲的書籍基本上都是從國外引進翻譯的,國內的本版書籍屈指可數,故而我跟華章的副總編楊福川策劃了這本書。本書的撰寫過程中各方面的參考資料非常少,因此完成本書所花費的精力相對來說是非常大的。
本書從系統化的視角,為那些想學習Python網絡爬蟲或者正在研究Python網絡爬蟲的朋友們提供了一個全面的參考,讓讀者可以系統地學習Python網絡爬蟲的方方面面,在理解并掌握了本書的實例之后,能夠獨立編寫出自己的Python網絡爬蟲項目,并且能夠勝任Python網絡爬蟲工程師相關崗位的工作。
同時,本書的另一個目的是,希望可以給大數據或者數據挖掘方向的從業者一定的參考,以幫助這些讀者從海量的互聯網信息中爬取需要的數據。所謂巧婦難為無米之炊,有了這些數據之后,從事大數據或者數據挖掘方向工作的讀者就可以進行后續的分析處理了。
本書的主要內容和特色
本書是一本系統介紹Python網絡爬蟲的書籍,全書注重實戰,涵蓋網絡爬蟲原理、如何手寫Python網絡爬蟲、如何使用Scrapy框架編寫網絡爬蟲項目等關于Python網絡爬蟲的方方面面。
本書的主要特色如下:
?系統講解Python網絡爬蟲的編寫方法,體系清晰。
?結合實戰,讓讀者能夠從零開始掌握網絡爬蟲的基本原理,學會編寫Python網絡爬蟲以及Scrapy爬蟲項目,從而編寫出通用爬蟲及聚焦爬蟲,并掌握常見網站的爬蟲反屏蔽手段。
?有配套免費視頻,對于書中的難點,讀者可以直接觀看作者錄制的對應視頻,加深理解。
?擁有多個爬蟲項目編寫案例,比如博客類爬蟲項目案例、圖片類爬蟲項目案例、模擬登錄爬蟲項目等。除此之外,還有很多不同種類的爬蟲案例,可以讓大家在理解這些案例之后學會各種類型爬蟲的編寫方法。
總之,在理解本書內容并掌握書中實例之后,讀者將能勝任Python網絡爬蟲工程師方向的工作并學會各種類型網絡爬蟲項目的編寫。此外,本書對于大數據或數據挖掘方向的從業者也非常有幫助,比如可以利用Python網絡爬蟲輕松獲取所需的數據信息等。
本書面向的讀者
?Python網絡爬蟲初學者
?網絡爬蟲工程師
?大數據及數據挖掘工程師
?高校計算機專業的學生
?其他對Python或網絡爬蟲感興趣的人員
如何閱讀本書
本書分為四篇,共計20章。
第一篇為理論基礎篇(第1~2章),主要介紹了網絡爬蟲的基礎知識,讓大家從零開始對網絡爬蟲有一個比較清晰的認識。
第二篇為核心技術篇(第3~9章),詳細介紹了網絡爬蟲實現的核心技術,包括網絡爬蟲的工作原理、如何用Urllib庫編寫網絡爬蟲、爬蟲的異常處理、正則表達式、爬蟲中Cookie的使用、手寫糗事百科爬蟲、手寫鏈接爬蟲、手寫微信爬蟲、手寫多線程爬蟲、瀏覽器偽裝技術、Python網絡爬蟲的定向爬取技術及實例等。學完這一部分內容,讀者就可以寫出自己的爬蟲了。這部分的爬蟲編寫采用的是一步步純手寫的方式進行的,沒有采用框架。
第三篇為框架實現篇(第10~17章),主要詳細介紹了如何用框架實現Python網絡爬蟲項目。使用框架實現Python網絡爬蟲項目相較于手寫方式更加便捷,主要包括Python爬蟲框架分類、Scrapy框架在各系統中的安裝以及如何避免各種“坑”、如何用Scrapy框架編寫爬蟲項目、Scrapy框架架構詳解、Scrapy的中文輸出與存儲、在Scrapy中如何使用for循環實現自動網頁爬蟲、如何通過CrawlSpider實現自動網頁爬蟲、如何將爬取的內容寫進數據庫等。其中第12章為基礎部分,讀者需要著重掌握。
第四篇為項目實戰篇(第18~20章),分別講述了博客類爬蟲項目、圖片類爬蟲項目、模擬登錄爬蟲項目的編程及實現。其中,也會涉及驗證碼處理等方面的難點知識,幫助讀者通過實際的項目掌握網絡爬蟲項目的編寫。
勘誤和支持
由于作者的水平有限,書中難免有一些錯誤或不準確的地方,懇請各位讀者不吝指正。
相關建議各位可以通過微博@韋瑋pig或通過QQ公眾號a67899或微信公眾平臺weijc7789(可以直接掃描下方二維碼添加)進行反饋,也可以直接向郵箱ceo@iqianyue.com發送郵件,期待能夠收到各位讀者的意見和建議,歡迎來信。

掃描關注QQ公眾號

掃描關注微信公眾號
致謝
感謝機械工業出版社華章公司的副總編楊福川老師與編輯李藝老師,在近一年的時間里,是你們一次次在我遇到困難的時候,給予我鼓勵,讓我可以堅持寫下去。創作一本圖書是非常艱苦的,除了技術知識等因素之外,還需要非常大的毅力。特別感謝楊福川在寫作過程中對我各方面的支持,尤其是對我毅力的培養。
感謝CSDN、51CTO與極客學院,因為你們,讓我在這個領域獲得了更多的學員與支持。
感謝恩師何云景教授對我創業方面的幫助,因為有您,我才擁有了一個更好的創業開端及工作環境。
特別致謝
最后,需要特別感謝的是我的女友,因為編寫這本書,少了很多陪你的時間,感謝你的不離不棄與理解包容。希望未來可以加倍彌補你那些錯過吃的美食和那些錯過逛的街道。
同時,也要感謝你幫我完成書稿的校對工作,謝謝你的付出與支持。因為有了你默默的付出,我才能堅定地走下去;因為有了你不斷的支持,我才可以安心地往前沖。
感謝爺爺從小對我人生觀、價值觀的培養,您是一個非常有思想的人。
感謝遠方的父母、叔叔、姐姐,那些親情的陪伴是我最珍貴的財富。
謹以此書獻給熱愛Python的朋友們!