官术网_书友最值得收藏!

內容簡介

本書從原理到實踐,循序漸進地講述了使用Python開發網絡爬蟲的核心技術。全書從邏輯上可分為基礎篇、實戰篇和爬蟲框架篇三部分。基礎篇主要介紹了編寫網絡爬蟲所需的基礎知識,包括網站分析、數據抓取、數據清洗和數據入庫。網站分析講述如何使用Chrome和Fiddler抓包工具對網站做全面分析;數據抓取介紹了Python爬蟲模塊Urllib和Requests的基礎知識;數據清洗主要介紹字符串操作、正則和BeautifulSoup的使用;數據入庫講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實現數據持久化,進行企業級開發。實戰篇深入講解了分布式爬蟲、爬蟲軟件的開發、12306搶票程序和微博爬取等。框架篇主要講述流行的爬蟲框架Scrapy,并以Scrapy與Selenium、Splash、Redis結合的項目案例,讓讀者深層次了解Scrapy的使用。此外,本書還介紹了爬蟲的上線部署、如何自己動手開發一款爬蟲框架、反爬蟲技術的解決方案等內容。

本書使用Python 3.X編寫,技術先進,項目豐富,適合欲從事爬蟲工程師和數據分析師崗位的初學者、大學生和研究生使用,也很適合有一些網絡爬蟲編寫經驗,但希望更加全面、深入理解Python爬蟲的開發人員使用。

主站蜘蛛池模板: 扶沟县| 安乡县| 临武县| 铁岭市| 龙泉市| 余干县| 武隆县| 延长县| 根河市| 沂水县| 陆川县| 石门县| 上林县| 嘉禾县| 衡山县| 南江县| 东莞市| 长宁县| 兴和县| 凤庆县| 陆川县| 招远市| 喀喇沁旗| 宾川县| 巢湖市| 朝阳市| 和平县| 济源市| 繁昌县| 东港市| 高要市| 新绛县| 镇远县| 平远县| 吴堡县| 社会| 马鞍山市| 岳池县| 彭山县| 八宿县| 萨嘎县|