官术网_书友最值得收藏!

第1章 網絡爬蟲

1.1 網絡爬蟲簡介

網絡爬蟲,又稱為網絡蜘蛛或網絡機器人等,是一種按照一定規則自動爬取萬維網信息的程序或者腳本,通俗地講就是通過程序去獲取Web頁面上所需要的數據,也就是自動爬取數據。

例如搜索引擎就是一個大型的網絡爬蟲,百度搜索引擎的爬蟲叫作Baiduspider,360搜索引擎的爬蟲叫360Spider,搜狗搜索引擎的爬蟲叫Sogouspider,必應搜索引擎的爬蟲叫Bingbot等。

據權威網站統計調查,世界上近80%的網絡爬蟲是基于Python開發的,而學習網絡爬蟲則可以為后續的數據分析、數據挖掘和機器學習等技術提供重要的數據源。

此外,通過網絡爬蟲可以爬取任何能通過瀏覽器訪問的數據,包括文字、圖片、聲頻、視頻和應用程序等,進而可以從中獲取所需要的數據資源,例如電影封面圖片、證券交易數據、金融信息數據、天氣數據和網站用戶數據等。

網絡爬蟲按照實現的技術和結構可以進一步分為通用網絡爬蟲和聚焦網絡爬蟲。

1.通用網絡爬蟲

通用網絡爬蟲是捜索引擎抓取系統的重要組成部分,主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。

2.聚焦網絡爬蟲

聚焦網絡爬蟲是面向特定需求的一種網絡爬蟲程序,其目的是在實施網頁抓取時,對內容進行篩選和處理,盡量保證只抓取與需求相關的網頁信息。聚焦網絡爬蟲又可以細分為積累網絡爬蟲、增量網絡爬蟲和深度網絡爬蟲,而在實際的使用過程中,通常將這幾類網絡爬蟲組合使用。

主站蜘蛛池模板: 芦溪县| 辉县市| 沂水县| 河源市| 金寨县| 富平县| 修水县| 阳春市| 西乡县| 安达市| 阿坝县| 游戏| 衡阳市| 潞西市| 尉犁县| 泽库县| 博兴县| 县级市| 靖边县| 页游| 高唐县| 舞钢市| 会同县| 永登县| 武定县| 栖霞市| 林州市| 涟水县| 望江县| 绥化市| 青海省| 黑水县| 福清市| 潜山县| 墨玉县| 阿尔山市| 阜新| 武陟县| 柏乡县| 保山市| 苏州市|