- 網絡數據采集技術:Java網絡爬蟲實戰
- 錢洋等
- 1106字
- 2020-09-29 15:49:46
第1章 網絡爬蟲概述與原理
1.1 網絡爬蟲簡介
隨著互聯網的迅速發展,網絡數據資源呈爆炸式增長,信息需求者如何從網絡中提取信息變得更加重要。如今,有效地獲取網絡數據資源的方式,便是網絡爬蟲。網絡爬蟲(Web Crawler)又稱為網絡蜘蛛(Web Spider)或Web信息采集器,是一種按照指定規則,自動抓取或下載網絡資源的計算機程序或自動化腳本。
對網絡爬蟲狹義上的理解:利用標準網絡協議(如HTTP、HTTPS等),根據網絡超鏈接和信息檢索方法(如深度優先)遍歷網絡數據的軟件程序。
對網絡爬蟲功能上的理解:確定待采集的URL隊列,獲取每個URL對應的網頁內容(如HTML和JSON等),根據用戶要求解析網頁中的字段(如標題),并存儲解析得到的數據。
網絡爬蟲技術在搜索引擎中扮演著信息采集器的角色,是搜索引擎模塊中的最基礎的部分。例如,我們常用的搜索引擎Google、百度、必應(Bing)都采用網頁爬蟲技術采集海量的互聯網數據。圖1.1展示了搜索引擎的大致結構。第一步,利用網絡爬蟲技術自動化地采集互聯網中的網頁信息。第二步,存儲采集的信息。在存儲過程中,往往需要檢測重復內容,從而避免大量重復信息的采集;同時,網頁之間的鏈接關系也需要存儲,原因是鏈接關系可用來計算網頁內容的重要性。第三步,數據預處理操作,即提取文字、分詞、消除噪音以及鏈接關系計算等。第四步,對預處理的數據建立索引庫,方便用戶快速查找,常用的索引方法有后綴數組、簽名文件和倒排文件。第五步,基于用戶檢索的內容(如用戶輸入的關鍵詞),搜索引擎從網頁索引庫中查找符合該關鍵詞的所有網頁(結果集),通過對結果集的排序,將最相關的網頁返回給用戶。

圖1.1 搜索引擎大致結構
另外,網絡爬蟲在其他方面也發揮著重要作用。
大數據環境下輿情分析與監測:政府或企業基于網絡爬蟲技術,采集論壇評論、在線博客、新聞媒體和微博等網站中的海量數據,采用數據挖掘相關方法(如實體識別、詞頻統計、文本情感計算、主題識別與演化等),發掘輿情熱點、跟蹤目標話題,并根據一定的標準采取相應的輿情控制與引導措施。
大數據環境下的用戶分析:企業利用網絡爬蟲技術,采集用戶基本信息、用戶對企業或商品的看法、觀點以及態度等數據、用戶之間的互動信息等。基于這些信息,企業可以對用戶進行畫像,如用戶基本屬性畫像、用戶產品特征畫像、用戶互動特征畫像等,發掘用戶對產品的個性化偏好與需求。同樣,也可分析企業自身產品的優勢和顧客反饋情況等。
科研需求:針對網絡大數據驅動、多源異構數據驅動的科學研究,必然涉及網絡數據采集技術。例如,針對網絡中的多源異構數據(如數字、文本、圖片和視頻等),如何更好地管理與存儲所采集的數據、如何進行數據的過濾與融合、如何對數據的可用性進行評估、如何將數據應用到商業分析中等,都是目前研究的熱點問題。
- Mastering Scientific Computing with R
- 信息安全技術
- 深入理解Java7:核心技術與最佳實踐
- Python機器學習實戰
- PhoneGap Mobile Application Development Cookbook
- PhoneGap:Beginner's Guide(Third Edition)
- 深入淺出PostgreSQL
- Clojure Reactive Programming
- Python 3 數據分析與機器學習實戰
- Python預測分析實戰
- 從零開始學UI:概念解析、實戰提高、突破規則
- Learning Alfresco Web Scripts
- C語言程序設計
- Java EE互聯網輕量級框架整合開發:SSM+Redis+Spring微服務(上下冊)
- 大話C語言