- Python全棧開發:數據分析
- 夏正東編著
- 7字
- 2023-07-17 20:52:40
第1章 網絡爬蟲
1.1 網絡爬蟲簡介
網絡爬蟲,又稱為網絡蜘蛛或網絡機器人等,是一種按照一定規則自動爬取萬維網信息的程序或者腳本,通俗地講就是通過程序去獲取Web頁面上所需要的數據,也就是自動爬取數據。
例如搜索引擎就是一個大型的網絡爬蟲,百度搜索引擎的爬蟲叫作Baiduspider,360搜索引擎的爬蟲叫360Spider,搜狗搜索引擎的爬蟲叫Sogouspider,必應搜索引擎的爬蟲叫Bingbot等。
據權威網站統計調查,世界上近80%的網絡爬蟲是基于Python開發的,而學習網絡爬蟲則可以為后續的數據分析、數據挖掘和機器學習等技術提供重要的數據源。
此外,通過網絡爬蟲可以爬取任何能通過瀏覽器訪問的數據,包括文字、圖片、聲頻、視頻和應用程序等,進而可以從中獲取所需要的數據資源,例如電影封面圖片、證券交易數據、金融信息數據、天氣數據和網站用戶數據等。
網絡爬蟲按照實現的技術和結構可以進一步分為通用網絡爬蟲和聚焦網絡爬蟲。
1.通用網絡爬蟲
通用網絡爬蟲是捜索引擎抓取系統的重要組成部分,主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。
2.聚焦網絡爬蟲
聚焦網絡爬蟲是面向特定需求的一種網絡爬蟲程序,其目的是在實施網頁抓取時,對內容進行篩選和處理,盡量保證只抓取與需求相關的網頁信息。聚焦網絡爬蟲又可以細分為積累網絡爬蟲、增量網絡爬蟲和深度網絡爬蟲,而在實際的使用過程中,通常將這幾類網絡爬蟲組合使用。
推薦閱讀
- ServiceNow Application Development
- Python概率統計
- Vue.js設計與實現
- 自己動手寫搜索引擎
- Fundamentals of Linux
- Boost C++ Application Development Cookbook(Second Edition)
- Visual C++數字圖像模式識別技術詳解
- Windows Server 2012 Unified Remote Access Planning and Deployment
- NoSQL數據庫原理
- 深入淺出Go語言編程
- 移動增值應用開發技術導論
- HTML5+CSS3+JavaScript 從入門到項目實踐(超值版)
- Java 從入門到項目實踐(超值版)
- Learning iOS Security
- Oracle實用教程