- Python爬蟲開發:從入門到實戰(微課版)
- 謝乾坤
- 1089字
- 2019-01-10 18:16:27
我在上大學的時候開始學習Python,使用Python做的第一個項目就是學校教務處爬蟲,用來爬取教務處的各種通知并導入到微信公眾號中。在對爬蟲開發比較熟練以后,我在淘寶上開了一個店鋪用來承接各種爬蟲的私活。我的店鋪是淘寶上面第一個爬蟲開發的店鋪。
在我工作以后,極客學院聯系我,讓我作為布道師在極客學院上講授爬蟲開發的課程。這些課程就是本書內容的前身。
本書適用于有一定編程基礎的讀者。雖然第2章講解了Python 3的基礎知識,但是由于Python博大精深,為了覆蓋爬蟲開發中的各種知識,所以自然需要省略一些細節上的內容。因此,如果讀者有一定的編程基礎與開發常識,那么閱讀本書將會事半功倍。
本書提供了練習網站,其地址為http://exercise.kingname.info/。建議讀者在學習本書的時候,根據書上的提示使用練習網站來練習爬蟲的開發。這樣做的好處有三點:其一,練習網站針對每一章開發,專門用于練習這一章的對應知識點,讀者在開發爬蟲的時候不用考慮其他的干擾因素。其二,定向爬蟲對網站的改版較為敏感,因此,在使用第三方網站做例子的時候,一旦網站出現了改版,如果讀者照搬本書的代碼就會導致爬取不到數據。而如果使用練習網站,即便讀者完全照搬本書的代碼也可以保證爬蟲成功運行。其三,在極客學院的視頻課程中,我曾經使用一個第三方網站作為爬蟲開發作業,由于視頻課程的學生眾多,大家都在爬這個網站導致網站承受不住壓力被迫關閉。
本書在階段練習中依然使用了一些第三方網站作為練習目標,讀者在閱讀本書并進行練習的時候,一定要注意學習書中講到的分析方法,而不是照抄代碼。當讀者讀到本書的時候,距離本書編寫的相應網站爬蟲應該已經過去了一段時間,所以如果根據書中的代碼無法爬取網站,那么不要驚慌,仔細閱讀書中的思路和方法,相信你一定可以重新爬取到數據。
在本書的構思和寫作過程中,我得到了很多老師、同行和朋友的幫助。在此要感謝極客學院,本書內容脫胎于我在極客學院的爬蟲系列視頻課程,通過極客學院同學的反饋,我才能從視頻課程里面總結和提煉出本書的內容;也要感謝極客學院的大靜和溫泉,在我錄制視頻課程的過程中對視頻和文檔進行認真細致的審核;還要感謝Linda,積極聯系出版社,從而可以把這個爬蟲系列視頻課程整理出版為實體書。
另外要感謝我的學生老賢和魏鵬。在爬蟲練習網站的開發過程中,魏鵬親自測試了每一個練習頁面,并針對每一個練習頁面開發了對應的爬蟲,以確認該頁面所涉及的爬蟲知識沒有超出本書的范疇。
最后,我要感謝我的家人和我女朋友的督促,讓我克服了拖延癥。我女朋友是本書的第一個讀者,她從零編程基礎開始通過本書掌握了Python并入門爬蟲開發,在閱讀過程中,針對一些描述不清及有歧義的地方提出了改進意見。
編者
2017年12月
- 企業級Java EE架構設計精深實踐
- Learning PostgreSQL
- 樂學Web編程:網站制作不神秘
- JavaFX Essentials
- Learning RabbitMQ
- OpenCV for Secret Agents
- Python編程完全入門教程
- Spring Boot+Vue全棧開發實戰
- Mastering Python Design Patterns
- Mastering Elasticsearch(Second Edition)
- Python Interviews
- Clojure Polymorphism
- Implementing Microsoft Dynamics NAV(Third Edition)
- Java程序設計教程
- C語言程序設計教程