- 信息內容安全管理及應用
- 李建華主編
- 2155字
- 2021-10-27 15:46:38
3.2.2 網絡媒體信息獲取的分類
按照信息獲取行為所涉及的網絡范圍劃分,網絡媒體信息獲取可以分為面向整個互聯網的全網信息獲取,以及針對某些具體網絡區域的定點信息獲取。另一方面,按照信息獲取行為在工作范圍內所關注的對象劃分,網絡媒體信息獲取還可以分為針對工作范圍內所有發布信息的、面向全部內容的信息獲取,以及只是關注工作網絡范圍內某些熱門話題的基于具體主題的信息獲取。本小節重點介紹全網信息獲取與定點信息獲取在技術要求與實現方法方面的區別,并進一步講解基于主題的信息獲取方法,以及該領域的代表性技術——元搜索。
1.全網信息獲取
全網信息獲取的工作范圍涉及整個互聯網內所有網絡媒體發布的信息,主要應用于搜索引擎(Search Engine),如Google、Baidu、Yahoo等,以及大型內容服務提供商(Content Service Provider)的信息獲取。隨著網絡新型媒體的不斷出現以及網絡信息發布形式的更新換代,純粹通過跟隨網絡鏈接已經很難達到遍歷整個互聯網的效果。全網信息獲取發起方在不斷更新、擴展用于信息獲取的初始URL集合的同時,還建議新接入互聯網的網絡媒體主動向信息獲取方提交自身網站地圖(Sitemap)。這有利于全網信息獲取機制面向新網絡媒體實現發布內容采集,從而保證其盡可能全面地覆蓋整個互聯網。
正如前文所述,整個互聯網信息總量非常龐大,考慮到本地用于信息采集的存儲空間有限,全網信息獲取發起方實際上并沒有把所有網絡媒體信息都采集到本地。搜索引擎或大型內容服務提供商在進行全網信息獲取時,通常基于特定的計算方法(如Google的PageRank算法)對于每條網絡信息進行評判,只是獲取或長時間保存在信息評判系統中排名靠前的網絡信息,如鏈接引用率較高的網絡媒體發布內容。另一方面,由于工作對象遍布整個互聯網,單次的全網信息獲取一般就需要數周乃至數月的時間。因此,在面對信息更新相對頻繁的網絡媒體(如論壇或博客等)時,全網信息獲取機制的內容失效率相對較高,其對于每個網絡媒體發布內容獲取的時效性無法實現統一的保證。盡管如此,全網信息獲取作為搜索引擎與內容服務提供商不可或缺的信息獲取機制,依然在網絡信息應用中起到極為關鍵的作用。
2.定點信息獲取
由于全網信息獲取不僅對內容存儲空間要求過高,而且無法保證網絡媒體發布內容獲取的時效性,因此在網絡媒體信息獲取只是重點關注某些特定的網絡區域,并且向信息獲取機制相對于媒體內容發布的網絡時延提出較高要求時,定點信息獲取的概念應運而生。
定點信息獲取的工作范圍限制在服務于信息獲取的初始URL集合中每個URL所屬的網絡目錄內,深入獲取每個初始URL所屬網絡目錄,及其下屬子目錄中包含的網絡發布內容,不再向初始URL所屬網絡目錄的上級目錄,乃至整個互聯網擴散信息獲取行為。如果說全網信息獲取關注的是信息獲取操作的全面性,即信息獲取在整個互聯網的覆蓋情況,定點信息獲取機制更加重視在限定的網域范圍內,進行深入的網絡媒體發布內容的獲取,同時保證獲取信息的時效性。
定點信息獲取正是通過周期性地遍歷每個初始URL所屬的網絡目錄,達到在初始URL設定的網域范圍內深入獲取網絡發布內容這一技術需求。與此同時,周期性遍歷初始URL所屬網絡目錄的時間間隔,是定點信息獲取用于確保內容采集時效性的關鍵參數。合理設定周期輪詢、查新獲取初始URL所屬網絡目錄的時間間隔,可以確保定點信息獲取機制不至于錯失目標網絡媒體不斷更新的發布內容,同時防止信息獲取機制過分增加目標媒體的工作負載。
3.基于主題的信息獲取與元搜索
由于在整個互聯網或限定的網域范圍內,全面獲取所有網絡媒體發布內容可能會造成本地存儲信息泛濫,因此在所關注的網絡范圍內只面向某些特定話題進行基于主題的信息獲取,是在面向全部內容的信息獲取以外另一個行之有效的信息獲取機制。顧名思義,基于主題的信息獲取只把與預設主題相符的內容采集到本地,其在信息獲取過程中增加了內容識別環節,可以只是簡單的主題詞匯匹配,也可以面向發布內容進行基于主題的模式識別,從而在關注的網絡范圍內有選擇地獲取網絡媒體發布的內容。相對于面向全部內容的信息獲取,基于主題的信息獲取機制正是通過有效減少需要采集的內容總量,進一步降低已采集內容的失效率,同時顯著減少服務于信息采集的內容存儲空間。
伴隨搜索引擎應用的不斷深入,在搜索引擎的協助下,進行基于主題的信息獲取技術——元搜索技術得到越來越多的應用。元搜索屬于特殊的基于主題的信息獲取,它將主題描述詞傳遞給搜索引擎進行信息檢索,并把搜索引擎針對主題描述詞的信息檢索結果作為基于主題信息獲取的返回內容。
元搜索技術得以實現的關鍵原因是,每個搜索引擎在為輸入詞目構造信息檢索URL時是有規律可循的。以中/英文信息檢索詞目為例,常用搜索引擎是把英文詞目原本內容,或中文詞目所對應的漢字編碼作為信息檢索URL的參數來輸入。例如,Google是將中文詞目的UTF編碼作為信息檢索URL參數,而Baidu則選擇中文詞目的GB編碼作為信息檢索URL參數。除輸入參數不同以外,用于相同搜索引擎的信息檢索URL的其余部分完全相同,如圖3-7所示。

圖3-7 搜索引擎信息檢索URL構造范例
元搜索技術正是通過在與不同搜索引擎的網絡交互過程中,根據每個搜索引擎的具體要求構造主題描述詞信息檢索URL,向搜索引擎發起信息檢索請求。元搜索技術利用搜索引擎進行基于主題的信息獲取操作,它把搜索引擎關于主題描述詞的信息檢索結果作為信息獲取對象,實現面向特定主題的網絡信息獲取。
- Learning Python for Forensics
- 信息系統安全檢測與風險評估
- INSTANT Burp Suite Starter
- INSTANT Windows PowerShell
- 代碼審計:企業級Web代碼安全架構
- API攻防:Web API安全指南
- Kali Linux Network Scanning Cookbook(Second Edition)
- Applied Network Security
- 硬黑客:智能硬件生死之戰
- Learning Devise for Rails
- ARM匯編與逆向工程:藍狐卷·基礎知識
- 從0到1:CTFer成長之路
- 數據安全領域指南
- 實用黑客攻防技術
- 構建新型網絡形態下的網絡空間安全體系