第2章 網絡信息采集技術
2.1 引言
網絡輿情分析的對象是來源于互聯網中各種信息交流平臺發布的網頁信息,因此網絡輿情分析的首要條件是搜集互聯網中網頁信息。在搜集網絡信息時,需要借助于專用的網絡工具,如搜索引擎等,著名的搜索引擎有谷歌(Google)、百度(Baidu)等,也是網民最常用的網絡信息搜索工具。
搜索引擎采用某種搜索策略在互聯網上搜集網頁信息,然后對信息進行提取、整理、組織和處理,建立索引數據庫,為用戶提供信息檢索服務,起到信息導航的作用。搜索引擎的出現在很大程度上緩解了人們在互聯網上查找信息的困難。經過多年的發展,搜索引擎的功能越來越強大,提供的服務也越來越豐富,成為廣大網民不可缺少的網絡工具。
網絡輿情分析的數據來源是互聯網中各種網絡媒體、信息交流平臺發布的網頁信息,尤其是互動式信息交流平臺或網站,如論壇、微博等,成為網絡輿論的主要來源地。因此,在網絡輿情分析中,首先需要使用網絡信息采集工具自動搜集主要新聞網站、信息交流平臺發布的信息,為網絡輿情分析提供數據資源。網絡輿情分析的效果在很大程度上取決于網絡信息搜集的質量。
本章主要介紹與網絡信息采集技術相關的搜索引擎、網絡蜘蛛、網頁搜索算法、相似度計算、主題蜘蛛組成等內容。