- 自己動手寫分布式搜索引擎
- 羅剛
- 304字
- 2020-11-28 15:52:39
1.3.1 網絡爬蟲
網絡爬蟲(Crawler)又被稱作網絡機器人(Robot)或者蜘蛛(Spider),它的主要用途是獲取互聯網上的信息。只有掌握了“吸星大法”,才能源源不斷地獲取信息。網絡爬蟲利用網頁中的超鏈接遍歷互聯網,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。http://dmoz.org可以作為整個互聯網抓取的入口。網絡爬蟲收集的信息可有多種用途,如建立索引、HTML文件的驗證、URL鏈接驗證、獲取更新信息、站點鏡像等。為了檢查網頁內容是否更新過,網絡爬蟲建立的頁面數據庫往往包含根據頁面內容生成的文摘。
在抓取網頁時大部分網絡爬蟲會遵循Robot.txt協議。網站本身可以用兩種方式聲明不想被搜索引擎收入的內容:第一種方式是在站點的根目錄增加一個純文本文件http://www.yourdomain.com/robots.txt;另外一種方式是直接在HTML頁面中使用Robots的<meta>標簽。
推薦閱讀
- 對比Excel,輕松學習SQL數據分析
- Zenoss Core Network and System Monitoring
- PPT 2016幻燈片設計與制作從入門到精通
- ImageMagick Tricks
- AutoCAD 2014電氣設計從入門到精通
- 計算機·手機生活應用
- Cinema 4D電商美工與視覺設計案例教程(培訓教材版)
- Photoshop影視動漫角色繪制技法精解
- Illustrator 2024從入門到精通
- 從零開始:Photoshop工具詳解與實戰
- 新印象:CINEMA 4D電商設計基礎與實戰(全視頻微課版)
- PostgreSQL 9.0 High Performance
- Autodesk Ecotect Analysis綠色建筑分析應用
- Photoshop & Illustrator平面設計火星課堂
- AutoCAD 2019中文版完全自學手冊(標準版)