- Python全棧開發:數據分析
- 夏正東編著
- 554字
- 2023-07-17 20:52:40
第1章 網絡爬蟲
1.1 網絡爬蟲簡介
網絡爬蟲,又稱為網絡蜘蛛或網絡機器人等,是一種按照一定規則自動爬取萬維網信息的程序或者腳本,通俗地講就是通過程序去獲取Web頁面上所需要的數據,也就是自動爬取數據。
例如搜索引擎就是一個大型的網絡爬蟲,百度搜索引擎的爬蟲叫作Baiduspider,360搜索引擎的爬蟲叫360Spider,搜狗搜索引擎的爬蟲叫Sogouspider,必應搜索引擎的爬蟲叫Bingbot等。
據權威網站統計調查,世界上近80%的網絡爬蟲是基于Python開發的,而學習網絡爬蟲則可以為后續的數據分析、數據挖掘和機器學習等技術提供重要的數據源。
此外,通過網絡爬蟲可以爬取任何能通過瀏覽器訪問的數據,包括文字、圖片、聲頻、視頻和應用程序等,進而可以從中獲取所需要的數據資源,例如電影封面圖片、證券交易數據、金融信息數據、天氣數據和網站用戶數據等。
網絡爬蟲按照實現的技術和結構可以進一步分為通用網絡爬蟲和聚焦網絡爬蟲。
1.通用網絡爬蟲
通用網絡爬蟲是捜索引擎抓取系統的重要組成部分,主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。
2.聚焦網絡爬蟲
聚焦網絡爬蟲是面向特定需求的一種網絡爬蟲程序,其目的是在實施網頁抓取時,對內容進行篩選和處理,盡量保證只抓取與需求相關的網頁信息。聚焦網絡爬蟲又可以細分為積累網絡爬蟲、增量網絡爬蟲和深度網絡爬蟲,而在實際的使用過程中,通常將這幾類網絡爬蟲組合使用。
推薦閱讀
- Raspberry Pi for Python Programmers Cookbook(Second Edition)
- Learn TypeScript 3 by Building Web Applications
- Learn Type:Driven Development
- Objective-C應用開發全程實錄
- Java加密與解密的藝術(第2版)
- NumPy Essentials
- Cassandra Data Modeling and Analysis
- Windows Forensics Cookbook
- FLL+WRO樂高機器人競賽教程:機械、巡線與PID
- Python程序設計與算法基礎教程(第2版)(微課版)
- 軟件測試綜合技術
- RESTful Web Clients:基于超媒體的可復用客戶端
- Learning Unreal Engine Game Development
- 百萬在線:大型游戲服務端開發
- 從零開始學Unity游戲開發:場景+角色+腳本+交互+體驗+效果+發布