- 災害大數據與智慧城市應急處理
- 徐小龍等編著
- 14字
- 2021-08-13 19:00:44
第3章 災害大數據定向爬取技術
3.1 定向爬取技術的研究背景與問題分析
面對海量的互聯網災害大數據,精準地爬取與災情相關的數據,將會對災后救援產生重要的影響。由于數據爬取是后續數據挖掘、分析與決策的前提[1],因此如何高效、精準地爬取與主題相關的數據已經成為研究熱點。傳統的通用爬取方法,其結果通常考慮廣泛性而忽略了針對性,如Baidu和Google等商業搜索引擎的爬取結果[2]。與面向特定領域的主題搜索引擎相比,通用爬取方法的針對性較弱,在爬取結果的過濾和后期相關度的排序等方面還有待提高。定向爬取技術的核心問題是如何通過算法來提高爬取結果的準確率,盡可能多地采集與主題相關的網頁數據。目前,災害大數據定向爬取技術主要存在以下問題:
(1)當前的采集器通過主題與網頁數據相關度的判定,只有當相關度大于設定的閾值時,才保存相關的網頁數據。這種方法的效率比較低,爬取結果的準確率也不高,難以實現對與主題相關的網頁數據的準確爬取。
(2)基于鏈接結構的主題爬取算法主要是判定待爬取的鏈接與主題的相關度,基于鏈接的判定算法不僅容易造成“主題漂移”的現象,而且也容易忽略鏈接的相關反饋信息。
(3)目前的分布式定向爬取系統,節點之間需要進行頻繁的通信,系統的可擴展性差。
為了解決上述問題,本章重點介紹了災害數據采集算法的相關知識,具體內容包括以下幾點:
(1)在分析數據爬取算法的基礎上,詳細介紹了一種面向網絡數據定向爬取的自適應爬取算法(Adaptive Crawling Algorithm,ACA)[3]。
(2)詳細介紹了ACA的原理和執行流程。
(3)通過實驗對ACA進行驗證與性能分析,證明ACA在爬取數據的準確率方面優于貝葉斯(Bayesian)算法[5]和最佳優先搜索(Best First Search,BFS)[6]算法,從而對網頁數據進行精準的定向爬取。