官术网_书友最值得收藏!

3.2.1 網絡媒體信息獲取的理論流程

理論上,網絡媒體信息獲取流程主要由初始URL集合——信息“種子”集合、等待獲取的URL隊列、信息獲取模塊、信息解析模塊、信息判重模塊與互聯網信息庫共同組成,如圖3-4所示。

圖3-4 網絡媒體信息獲取的理論流程

1.初始URL集合

初始URL集合的概念最初由搜索引擎研究人員提出,商用搜索引擎為了使自身擁有的信息充分覆蓋整個互聯網,需要首先維護包含相當數量網絡地址的初始URL集合。搜索引擎跟隨初始URL集合發布頁面上的網絡鏈接進入第一級網頁,并進一步跟隨第一級網頁內嵌鏈接進入第二級網頁,最終形成周而復始地跟隨網頁內嵌地址的遞歸操作,完成所有網頁發布信息的獲取工作。因此,初始URL集合通常被形象地稱為信息“種子”集合,如圖3-5所示。網絡媒體信息的獲取,同樣是針對初始URL集合進行遍歷式的信息獲取。基于初始URL集合指定的入口頁(Entry Page),網絡媒體信息獲取以多線程方式,實現信息智能化主動獲取。該過程模擬客戶/服務器通信、模擬人機交互,在語義分析的基礎上,以遞歸調用的方式快速且徹底完成遠程數據本地鏡像。需要指出的是,網絡媒體信息獲取充分考慮了互聯網使用的HTTP/1.1,尤其是與內容協商(Content Negotiation)、訪問控制(Access Control)和數據緩存(Web Catching)相關的規范流程,在有效實現數據主動獲取的同時,保證了數據的可靠性和有效性。

圖3-5 跟隨網頁內嵌地址逐級遞歸遍歷互聯網絡

應該說只要維護包含足夠數量網絡地址的初始URL集合,理論上搜索引擎是可以遍歷整個互聯網的(通常還需要網站主動向搜索引擎提供的網站地圖(Sitemap))。源于搜索引擎應用研究的網絡媒體信息獲取環節,同樣需要根據后續網絡媒體信息分析環節所關注的互聯網網絡范圍,事先維護包含一定數量網絡地址的初始URL集合,作為信息獲取操作的起點。

2.信息獲取模塊

信息獲取模塊首先根據來自初始網絡地址集合或URL隊列中的每條網絡地址信息,確定待獲取內容所采用的信息發布協議。在完成待獲取內容協議解析操作后,信息獲取模塊基于特定通信協議所定義的網絡交互機制,向信息發布網站請求所需內容,并接收來自網站的響應信息,傳遞給后續的信息解析模塊。基于HTTP發布的文本信息獲取范例如圖3-6所示。HTTP信息網絡交互過程細節,可查閱協議規范HTTP/1.1。

圖3-6 HTTP文本信息獲取范例

隨著HTTP/1.1的廣泛應用,內容協商已經成為互聯網信息傳遞中常見的技術。客戶端瀏覽器向網站提供客戶的偏好,如內容的語言、編碼方式、質量參數等;網站根據實際情況,盡可能滿足客戶的需求。一般的信息自動提取技術,如Wget、Pavuk、Teleport等,大多沒有很好地考慮這一問題,因此不能保證提取的內容與實際客戶端瀏覽器取回的版本一致,當然,后續的解析和分類也就沒有實際意義,這就需要個性化可配置的信息獲取技術。所謂個性化可配置,指信息獲取模塊可以根據用戶或系統提供的個性化信息,完成與網站之間的內容協商,將合適的內容提取到本地。例如,在信息獲取過程中通過HTTP/1.1相關原語的交互(如VARY),實現對內容協商機制的完全模擬,保障本地鏡像內容的準確性。

網站用戶與服務器間的內容交互除了由內容協商完成,還可通過人機對話的方式實現。以交互式媒體為例,用戶通過一次登錄(即使是匿名登錄),與服務器之間完成一次通信,獲得身份驗證信息(通常是以Cookie等形式)。在以后的交互中,雙方憑借此信息作為身份的識別。目前,一般的信息提取技術并不能實現這一功能。為了完成對指定網站內容的充分獲取,在內容協商的基礎上,還需進一步提供智能化的人機交互模擬模塊。基于HTTP返回碼,需要獲取身份驗證信息才可以瀏覽內容,根據用戶或系統的配置,模擬用戶與服務器之間進行對話,從而實現交互式網絡媒體發布內容的主動獲取。

網絡媒體信息的獲取往往非常消耗時間與運算及存儲資源,相關過程從初始URL集合設置的入口頁出發,針對入口頁及入口頁以后的頁面進入內容語義理解,將分析出的鏈接重新定義為入口頁實現遞歸調用。由于單進程的遞歸調用效率低,在網絡媒體信息獲取的規模較大時,一般采用多線程方式實現遞歸調用,從而確保網絡媒體信息獲取過程的高效率與高性能。

最后需要說明的是,在理論層面,立足于開放系統互連參考模型(OSI/RM)的傳輸層,可以通過重構各類通信協議(如HTTP、FTP等)所定義的網絡交互過程,實現基于不同通信協議的發布內容獲取。不過伴隨互聯網中文本、圖像信息發布形態不斷推陳出新(人機交互式信息發布形態的出現直接導致文本、圖像信息請求網絡通信過程愈加復雜),音/視頻發布內容層出不窮(音/視頻信息網絡交互過程重構困難,部分音/視頻網絡通信協議交互細節并未公開),純粹依賴各類協議網絡通信交互過程重構,實現信息內容獲取的操作復雜度、網絡交互重構難度呈指數級增長。因此,當前關于信息獲取的研究,正在逐步轉向選擇在應用層,利用開源瀏覽器部分組件,甚至整個開源瀏覽器,實現網絡媒體信息內容的主動獲取,相關內容將在3.3節網絡媒體信息獲取方法中做進一步講解。

3.信息解析模塊

在信息獲取模塊獲得網絡媒體響應信息后,信息解析模塊的核心工作是根據不同通信協議的具體定義,從網絡響應信息相應位置提取發布信息的主體內容。為了便于開展信息采集與否判斷,信息解析模塊通常還將按照信息判重的要求,進一步維護與網絡內容發布緊密相關的關鍵信息字段,例如,信息來源、信息標題,以及在網絡響應信息頭部可能存在的信息失效時間(Expires)、信息最近修改時間(Last-Modified)等。信息解析模塊會把提取到的內容直接交付信息判重模塊,在通過必要的重復內容檢查后,網絡媒體發布信息主體內容及其對應的關鍵字段將被存入互聯網信息庫。

為了實現跟隨網頁內嵌鏈接遞歸遍歷所關注的網絡范圍這一技術需求,對于響應信息類型(Content-type)是TEXT/?的HTTP文本信息,信息解析模塊在完成響應信息主體內容及關鍵信息字段提取的同時,還需要進一步開展HTTP文本信息內嵌URL提取操作。信息解析模塊實現HTTP文本信息內嵌URL提取的理論依據是,HTML語言關于網絡超文本鏈接(Hyper Text Link)標記的系列定義。信息解析模塊一般是通過遍歷HTTP文本信息全文,查找網絡超文本鏈接標記的方法,實現HTTP文本信息內嵌URL的提取。

另一方面,網站內容編寫技術發展迅速,從早期的靜態HTML和普通文本圖像內容,已經發展到今天各種動態語言和包括圖像、視頻、音頻、動畫、虛擬現實(VR)等多種多媒體個體的群件,這就給網頁內容自動解析帶來了新的挑戰。與傳統的標記型語言(Markup Language)不同,以Script為代表的腳本型語言,更多地結合了一般程序編寫的技術,利用瀏覽器作為編譯運行的環境,以達到發布動態內容的目的;而以Flash為代表的腳本型語言,則是利用瀏覽器插件(Plug-in),將多媒體群件內容打包在若干對象中,利用插件完成對此對象的解釋。因此,在網站自動信息提取中,必須研究和開發出編譯、分析與執行同步操作的技術,同時提供對標記型語言與腳本型語言的準確語義理解,才可充分實現多媒體個體對象及其鏈接對象的主動獲取。

當前,信息解析模塊還可以首先面向HTTP文本信息構建文檔對象模型(Document Object Module, DOM)樹,并從HTML DOM樹的相應節點獲取HTTP文本內嵌URL信息。本章后續會有關于HTML DOM樹的詳細介紹。

4.信息判重模塊

在網絡媒體信息獲取環節,信息判重模塊是對本地鏡像的網站內容進行高效且準確的理解,從而對冗余信息和不完整信息進行相應處理,以保障本地網絡媒體信息數據庫中內容的準確性和有效性。該模塊主要基于網絡媒體信息URL與內容摘要兩大元素,通過查詢比對本地網絡媒體信息數據庫的URL及內容摘要信息,實現信息采集/存儲與否判斷。其中,URL判重通常是在信息采集操作啟動前進行,而內容摘要判重則是在采集信息存儲時發揮效用。

來自HTTP文本信息的內嵌URL信息,首先通過URL判重操作確定每個內嵌URL是否已經實現了信息獲取。對于尚未實現發布內容采集的全新URL,信息獲取模塊將會啟動完整的信息采集流程;對于已經實現內容采集,同時注明信息失效時間及最近修改時間的URL(URL信息失效時間及最近修改時間已由信息解析模塊從網絡響應信息中提取得到,并存于互聯網信息庫中),信息采集模塊將會向對應的網絡內容發布媒體發起信息查新獲取操作。此時,信息采集模塊只會對于已經失效,或者已被重新修改的網絡內容重新啟動完整的信息采集操作。信息采集模塊通常被要求重新采集已經實現信息獲取,但未注明信息失效時間及最近修改時間的URL所對應的發布內容。

在面向沒有提供發布信息失效時間及最近修改時間的網絡媒體時(網絡通信協議并未強制要求響應信息必須提供信息失效時間及最近修改時間),僅是依靠URL判重機制,無法避免同一內容重復獲取。因此,在獲取信息存儲前,需要進一步引入內容摘要判重機制。網絡媒體信息獲取環節可以基于MD5算法,逐一維護已采集信息的內容摘要,杜絕相同內容重復獲取的現象。

主站蜘蛛池模板: 淮阳县| 甘泉县| 库车县| 怀柔区| 江阴市| 庐江县| 吉水县| 确山县| 高密市| 炎陵县| 灵川县| 沅陵县| 高要市| 娄烦县| 澄江县| 大埔区| 玉屏| 屏边| 安顺市| 兴仁县| 舒兰市| 鄂伦春自治旗| 全椒县| 阿尔山市| 漠河县| 都兰县| 城口县| 长武县| 松阳县| 阿拉尔市| 晋宁县| 卢湾区| 新干县| 荆门市| 兴义市| 称多县| 阜城县| 忻城县| 肃北| 马鞍山市| 都江堰市|