- 精通Python網絡爬蟲:核心技術、框架與項目實戰
- 韋瑋
- 373字
- 2019-01-05 03:22:41
1.6 小結
1)網絡爬蟲也叫作網絡蜘蛛、網絡螞蟻、網絡機器人等,可以自動地瀏覽網絡中的信息,當然瀏覽信息的時候需要按照我們制定的規則去瀏覽,這些規則我們將其稱為網絡爬蟲算法。使用Python可以很方便地編寫出爬蟲程序,進行互聯網信息的自動化檢索。
2)學習爬蟲,可以:①私人訂制一個搜索引擎,并且可以對搜索引擎的數據采集工作原理,進行更深層次地理解;②為大數據分析提供更多高質量的數據源;③更好地研究搜索引擎優化;④解決就業或跳槽的問題。
3)網絡爬蟲由控制節點、爬蟲節點、資源庫構成。
4)網絡爬蟲按照實現的技術和結構可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中,通常是這幾類爬蟲的組合體。
5)聚焦網絡爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數據庫、鏈接過濾模塊、內容評價模塊、鏈接評價模塊等構成。