官术网_书友最值得收藏!

1章 網絡爬蟲概述與原理

1.1 網絡爬蟲簡介

隨著互聯網的迅速發展,網絡數據資源呈爆炸式增長,信息需求者如何從網絡中提取信息變得更加重要。如今,有效地獲取網絡數據資源的方式,便是網絡爬蟲。網絡爬蟲(Web Crawler)又稱為網絡蜘蛛(Web Spider)或Web信息采集器,是一種按照指定規則,自動抓取或下載網絡資源的計算機程序或自動化腳本。

對網絡爬蟲狹義上的理解:利用標準網絡協議(如HTTP、HTTPS等),根據網絡超鏈接和信息檢索方法(如深度優先)遍歷網絡數據的軟件程序。

對網絡爬蟲功能上的理解:確定待采集的URL隊列,獲取每個URL對應的網頁內容(如HTML和JSON等),根據用戶要求解析網頁中的字段(如標題),并存儲解析得到的數據。

網絡爬蟲技術在搜索引擎中扮演著信息采集器的角色,是搜索引擎模塊中的最基礎的部分。例如,我們常用的搜索引擎Google、百度、必應(Bing)都采用網頁爬蟲技術采集海量的互聯網數據。圖1.1展示了搜索引擎的大致結構。第一步,利用網絡爬蟲技術自動化地采集互聯網中的網頁信息。第二步,存儲采集的信息。在存儲過程中,往往需要檢測重復內容,從而避免大量重復信息的采集;同時,網頁之間的鏈接關系也需要存儲,原因是鏈接關系可用來計算網頁內容的重要性。第三步,數據預處理操作,即提取文字、分詞、消除噪音以及鏈接關系計算等。第四步,對預處理的數據建立索引庫,方便用戶快速查找,常用的索引方法有后綴數組、簽名文件和倒排文件。第五步,基于用戶檢索的內容(如用戶輸入的關鍵詞),搜索引擎從網頁索引庫中查找符合該關鍵詞的所有網頁(結果集),通過對結果集的排序,將最相關的網頁返回給用戶。

圖1.1 搜索引擎大致結構

另外,網絡爬蟲在其他方面也發揮著重要作用。

大數據環境下輿情分析與監測:政府或企業基于網絡爬蟲技術,采集論壇評論、在線博客、新聞媒體和微博等網站中的海量數據,采用數據挖掘相關方法(如實體識別、詞頻統計、文本情感計算、主題識別與演化等),發掘輿情熱點、跟蹤目標話題,并根據一定的標準采取相應的輿情控制與引導措施。

大數據環境下的用戶分析:企業利用網絡爬蟲技術,采集用戶基本信息、用戶對企業或商品的看法、觀點以及態度等數據、用戶之間的互動信息等。基于這些信息,企業可以對用戶進行畫像,如用戶基本屬性畫像、用戶產品特征畫像、用戶互動特征畫像等,發掘用戶對產品的個性化偏好與需求。同樣,也可分析企業自身產品的優勢和顧客反饋情況等。

科研需求:針對網絡大數據驅動、多源異構數據驅動的科學研究,必然涉及網絡數據采集技術。例如,針對網絡中的多源異構數據(如數字、文本、圖片和視頻等),如何更好地管理與存儲所采集的數據、如何進行數據的過濾與融合、如何對數據的可用性進行評估、如何將數據應用到商業分析中等,都是目前研究的熱點問題。

主站蜘蛛池模板: 赤水市| 德安县| 临夏县| 泾源县| 岢岚县| 璧山县| 南通市| 镇原县| 滦南县| 博兴县| 永福县| 大渡口区| 汪清县| 忻州市| 综艺| 凌源市| 长泰县| 舒兰市| 清徐县| 馆陶县| 水富县| 崇仁县| 会理县| 汉寿县| 嘉善县| 栾城县| 华亭县| 德庆县| 蒙城县| 贺州市| 沂水县| 文安县| 阳东县| 辽阳县| 齐河县| 中卫市| 河曲县| 丹江口市| 枞阳县| 务川| 马山县|