免费无限破解版游戏大全

書名：自己動手寫分布式搜索引擎
作者名：羅剛
本章字數： 304字
更新時間： 2020-11-28 15:52:39

1.3.1 網絡爬蟲

網絡爬蟲(Crawler)又被稱作網絡機器人(Robot)或者蜘蛛(Spider)，它的主要用途是獲取互聯網上的信息。只有掌握了“吸星大法”，才能源源不斷地獲取信息。網絡爬蟲利用網頁中的超鏈接遍歷互聯網，通過URL引用從一個HTML文檔爬行到另一個HTML文檔。http://dmoz.org可以作為整個互聯網抓取的入口。網絡爬蟲收集的信息可有多種用途，如建立索引、HTML文件的驗證、URL鏈接驗證、獲取更新信息、站點鏡像等。為了檢查網頁內容是否更新過，網絡爬蟲建立的頁面數據庫往往包含根據頁面內容生成的文摘。

在抓取網頁時大部分網絡爬蟲會遵循Robot.txt協議。網站本身可以用兩種方式聲明不想被搜索引擎收入的內容：第一種方式是在站點的根目錄增加一個純文本文件http://www.yourdomain.com/robots.txt；另外一種方式是直接在HTML頁面中使用Robots的<meta>標簽。

官术网_书友最值得收藏!

自己動手寫分布式搜索引擎

1.3.1 網絡爬蟲