官术网_书友最值得收藏!

<menuitem id="b01q1"><i id="b01q1"><small id="b01q1"></small></i></menuitem>

<menuitem id="b01q1"><code id="b01q1"><em id="b01q1"></em></code></menuitem>

<small id="b01q1"><button id="b01q1"></button></small>

<menuitem id="b01q1"></menuitem>

<small id="b01q1"></small>

<label id="b01q1"><button id="b01q1"><dd id="b01q1"></dd></button></label>

書名： Python全棧開發：數據分析
作者名：夏正東編著
本章字數： 554字
更新時間： 2023-07-17 20:52:40

第1章　網絡爬蟲

1.1　網絡爬蟲簡介

網絡爬蟲，又稱為網絡蜘蛛或網絡機器人等，是一種按照一定規則自動爬取萬維網信息的程序或者腳本，通俗地講就是通過程序去獲取Web頁面上所需要的數據，也就是自動爬取數據。

例如搜索引擎就是一個大型的網絡爬蟲，百度搜索引擎的爬蟲叫作Baiduspider，360搜索引擎的爬蟲叫360Spider，搜狗搜索引擎的爬蟲叫Sogouspider，必應搜索引擎的爬蟲叫Bingbot等。

據權威網站統計調查，世界上近80%的網絡爬蟲是基于Python開發的，而學習網絡爬蟲則可以為后續的數據分析、數據挖掘和機器學習等技術提供重要的數據源。

此外，通過網絡爬蟲可以爬取任何能通過瀏覽器訪問的數據，包括文字、圖片、聲頻、視頻和應用程序等，進而可以從中獲取所需要的數據資源，例如電影封面圖片、證券交易數據、金融信息數據、天氣數據和網站用戶數據等。

網絡爬蟲按照實現的技術和結構可以進一步分為通用網絡爬蟲和聚焦網絡爬蟲。

1．通用網絡爬蟲

通用網絡爬蟲是捜索引擎抓取系統的重要組成部分，主要目的是將互聯網上的網頁下載到本地，形成一個互聯網內容的鏡像備份。

2．聚焦網絡爬蟲

聚焦網絡爬蟲是面向特定需求的一種網絡爬蟲程序，其目的是在實施網頁抓取時，對內容進行篩選和處理，盡量保證只抓取與需求相關的網頁信息。聚焦網絡爬蟲又可以細分為積累網絡爬蟲、增量網絡爬蟲和深度網絡爬蟲，而在實際的使用過程中，通常將這幾類網絡爬蟲組合使用。

主站蜘蛛池模板：安陆市| 同德县| 黄冈市| 鹤峰县| 林州市| 佳木斯市| 城固县| 双江| 穆棱市| 灌阳县| 彰化市| 肃宁县| 迁安市| 舞钢市| 慈利县| 葵青区| 牙克石市| 隆子县| 米脂县| 文安县| 金塔县| 中西区| 嘉义县| 陇川县| 筠连县| 东兴市| 礼泉县| 弥渡县| 白朗县| 德清县| 台湾省| 新化县| 北票市| 香港| 即墨市| 昆山市| 白银市| 华容县| 中超| 当阳市| 疏附县|

<samp id="tclon"></samp>

<small id="tclon"><button id="tclon"><rt id="tclon"></rt></button></small>

<samp id="tclon"><i id="tclon"><nobr id="tclon"></nobr></i></samp><menuitem id="tclon"><code id="tclon"><em id="tclon"></em></code></menuitem>