官术网_书友最值得收藏!

1.3.1 網絡爬蟲

網絡爬蟲(Crawler)又被稱作網絡機器人(Robot)或者蜘蛛(Spider),它的主要用途是獲取互聯網上的信息。只有掌握了“吸星大法”,才能源源不斷地獲取信息。網絡爬蟲利用網頁中的超鏈接遍歷互聯網,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。http://dmoz.org可以作為整個互聯網抓取的入口。網絡爬蟲收集的信息可有多種用途,如建立索引、HTML文件的驗證、URL鏈接驗證、獲取更新信息、站點鏡像等。為了檢查網頁內容是否更新過,網絡爬蟲建立的頁面數據庫往往包含根據頁面內容生成的文摘。

在抓取網頁時大部分網絡爬蟲會遵循Robot.txt協議。網站本身可以用兩種方式聲明不想被搜索引擎收入的內容:第一種方式是在站點的根目錄增加一個純文本文件http://www.yourdomain.com/robots.txt;另外一種方式是直接在HTML頁面中使用Robots的<meta>標簽。

主站蜘蛛池模板: 塔河县| 承德市| 乌兰察布市| 昭觉县| 仪陇县| 定兴县| 宁南县| 扎赉特旗| 两当县| 西吉县| 合水县| 元阳县| 宿州市| 兴安县| 天津市| 廊坊市| 平潭县| 丹阳市| 土默特左旗| 明星| 贵定县| 渑池县| 恩施市| 海阳市| 松潘县| 老河口市| 遵化市| 鄂州市| 长岭县| 大丰市| 宣武区| 连江县| 武邑县| 虞城县| 长沙市| 伊春市| 青阳县| 弋阳县| 冕宁县| 平舆县| 招远市|