官术网_书友最值得收藏!

第五節 社科大數據技術

一 分布式海量數據采集及整合技術

大數據首先要面臨的問題是大數據的采集和融合,大數據采集與整合系統運用分布式技術架構,聚合采用分布式數據采集、分布式存儲管理、自然語言處理、數據融合等技術,克服大數據中數據類型多,非結構化數據多、數據量大、數據格式標準不統一等諸多技術難點,實現海量數據采集和結構化轉換,最終形成統一的高價值數據庫。

圖1—3 高價值結構化大數據庫

基于上述技術的系統架構圖如下:

圖1—4 大數據采集系統構架

系統能夠提供強大穩定的批量數據采集功能,并且能夠對各數據源進行提供數據源管理、配置采集規則、采集任務監控、采集任務調度、采集導出管理、數據源管理等全面的管理功能。數據采集有以下四個特點。

(1)網站覆蓋度廣。采集范圍可覆蓋國內外各種主流網站,可指定網站進行采集,包括政府網站、微博等,且支持中文、英文等多語種采集。

(2)采集準確性高。能利用自然語言智能處理技術,精準識別采集網站目標,自動過濾垃圾數據,使采集更精準。

(3)運行穩定性強。通過采用先進的分布式云計算架構,保證了數據采集7×24小時穩定運行。

(4)資源占用率低。系統建立后臺數據管理功能,能對網頁采取更新數據的增量采集功能,使采集對服務器和帶寬資源的大大降低。

系統支持對合作伙伴網站的數據采集:通過建設對合作伙伴的特殊網站的數據統一標準,將數據采集服務器設立在公網,而通過網閘設備聯結政務網,把合作伙伴的數據單向通過網閘傳輸到采集服務器上。

系統能提供多種主流數據采集接口,包括txt、excel文件、數據庫、消息隊列、webservice等接口,滿足各種類型的數據采集需要。

其他部門數據采集:建設政府間其他部門數據統一標準,在政務外網設立數據采集共享服務器,實現社科院和政府其他部門之間的數據采集和共享。各部門定期把自己部門的數據上傳到采集共享服務器,社科院定期把數據取走加工,再把其他部門需要的數據上傳到采集共享服務器。

獲取到數據后,通過標簽方式和結合行業主流分類方式,建立互聯網大數據行業標準和社科數據標準,通過大數據技術、自然語言處理和語義融合等技術,實現互聯網各種數據類型到統一標準的自動歸并,實現互聯網社科大數據的整合。

二 文本數據自然語言處理與情感分析技術

大數據分析工具需要高質量的大數據,這樣才能提取出準確有價值的信息,而多源大數據往往包括大量文本數據,這些數據必須先進行處理才能進行分析。文本數據自然語言處理能夠對文本型數據進行自動的結構化處理,從而發現數據的語義價值,通過文本自然語言處理后,將能夠使用工具進行數據挖掘和情感分析等工作。

自然語言處理要提出給每個數據源的錯誤報告,日志、使用元信息的新語義結構化文本。錯誤報告包括原文本數據中存在的多種異常,比如:文本類型異常,數據格式異常,重復數據等。處理的日志是一個處理行為的集合,例如:處理后的語言,均化后的格式。經過自然語言處理后,產生出一個帶有元信息的新的結構化文本。

常用的自然語言處理功能包括:文本分類,文本分詞,詞性標注,命名實體識別,關鍵詞抽取,依存句法分析,時間短語識別、語法識別等,而在社科等領域,有一種特殊需求,就是對文本本身的情感分析。

情感分析是根據已知的文字內容和情感符號,推測文本內容所表達的情感偏向,比如正面還是負面。如果能夠處理好情感分析,就可以大大提升人們對于文本表達中的理解和處理效率,也可以利用情感分析的結論為其他人或事物服務,比如根據經濟學家所發表的論文、微博等信息,來預測未來經濟的趨勢。

當前最新的技術是運用深度學習來進行情感分析,以往人們應用關鍵詞來判斷情感,但準確度低,現在深度學習的準確率已經極大地提高,避免大量人工提取特征所需要的大量工作。自然語言處理的深度學習模型包括多層神經網絡(MLP)、卷積神經網絡(CNN)和長短記憶模型(LSTM)以及SVM、隨機森林、邏輯回歸等。

三 分布式大數據存儲技術

分布式計算中心的各個計算節點接收任務管理中產生的任務,然后獲取任務中的任務配置信息,包括在ETL預處理平臺中定義的來源數據和模型管理中指定的數據處理模型。

計算服務框架封裝了常用的函數庫、算法庫和通用模型庫,也可根據項目數據的需要,建立專業化、智能化的項目分析模型庫。通過管理控制中心的任務管理模塊對數據處理任務的配置化管理,建立任務與指定模型的調用關系,利用任務調度,計算服務框架執行任務,并依據指定模型轉換為底層的數據處理和分析。

計算任務從定義到執行的處理過程如下圖所示:

圖1—5 分布式計算任務處理過程

四 大數據挖掘與可視化技術

數據挖掘(Data Mining,DM)是目前人工智能和數據庫領域研究的熱點問題,它融合了人工智能、機器學習、模式識別、統計學、數據庫等多個領域的理論和技術。大數據的數據挖掘是指面對大量不完整、噪聲大、模糊、隨機的實際應用數據,從中用算法提取隱含的、未知的、潛在的有用信息和知識的過程。大數據挖掘能夠自動分析大數據,并建立預測模型,挖掘出潛在的規律,從而幫助決策者提前做出正確的決策。

社科大數據平臺通過整合內部系統數據、政府相關部門數據、互聯網數據等廣泛數據資源,為統計分析、印證提供了必要支撐。通過對來自多方面的紛繁復雜的大數據進行分析挖掘,找出蘊藏其中的有價值的信息,為各部門的總體分析、研判、指標評估提供依據。

為了讓枯燥乏味、抽象難懂的數據變得更加易于理解,更加形象活潑,需要使用數據可視化的技術。大數據平臺提供豐富的數據可視化技術組件,包括:地圖、熱力圖、關系網絡圖、樹圖、標簽云、空間信息流圖、弦圖、散點矩陣圖、氣泡圖、折線圖、柱狀圖、條形圖、雷達圖、餅圖、儀表盤、漏斗圖、混搭圖、表格等。

一些常見的圖表類型和形式如下:

(1)折線圖

(2)柱狀圖

(3)散點圖

(4)K線圖

(5)餅圖

(6)雷達圖

(7)力導向布局圖

(8)儀表盤

(9)漏斗圖

(10)混搭

(11)組件

(12)其他

五 基于大數據的預警技術

大數據的其中一個核心目標是預警、預測、決策、智能,是從海量經過預處理后的數據中提取隱含的、未曾發現的、有價值的趨勢,并給出預警信息。預警預測需要根據不同目標及應用場景,選擇合適的挖掘算法和模型。通過對項目的需求分析,涉及的挖掘算法包括貝葉斯分類、支持向量機、深度學習、XGboost等。

對經濟預警分析時,主要使用樸素貝葉斯分類、支持向量機(SVM)兩種分類技術分別進行模型驗證,通過樣本數據來訓練分類模型,通過測試數據來驗證模型的誤差率,根據模型的準確度和誤差率來確定其中一種分類技術應用到實際挖掘處理中。

基于樸素貝葉斯分類技術的實現方案如下:首先確定評價指標分類類別,選取樣本數據,計算樣本數據的出現概率,確定各類別的特征詞集合。從測試數據中提取特征詞,根據這些特征詞在各類別特征詞集合中出現的概率,確定每條數據的所屬分類。根據測試數據的分類準確率,調整樣本數據的特征詞集合,直到將誤差控制在一定范圍內。最后,將優化后的模型應用到生產環境,進行實際的挖掘處理。

基于支持向量機(SVM)分類技術的實現方案如下:首先確定評價指標分類類別,選取樣本數據,轉換成支持向量機能識別的格式,選擇支持向量機的訓練函數進行支持向量機分類模型的訓練,選取一定比例的測試數據和支持向量機的測試函數進行支持向量機分類模型的驗證,通過多次交叉驗證分類模型,得到指標評價最優支持向量機模型。最后,將優化后的支持向量機模型應用到生產環境,進行實際的挖掘處理。

針對預測分析,我們可以使用人工神經網絡分類算法。首先確定影響預測的輸入因子,根據隱含層神經元個數的選擇原則,構建預測人工神經網絡模型。然后用訓練樣本進行預測人工神經網絡模型的訓練,通過測試數據驗證模型的準確率和誤差率,不斷優化模型,直到將誤差控制在一定范圍內。最后,將優化后的模型應用到生產環境,進行實際的挖掘處理。

主站蜘蛛池模板: 泽普县| 建水县| 兴和县| 清原| 凉城县| 桐梓县| 仲巴县| 南阳市| 闽清县| 依安县| 庄河市| 宣城市| 通化市| 西丰县| 竹北市| 浪卡子县| 四平市| 香格里拉县| 磐石市| 阳城县| 涿鹿县| 航空| 临清市| 灌南县| 凭祥市| 文化| 济宁市| 富锦市| 桂东县| 平乐县| 石棉县| 忻城县| 余干县| 连州市| 望都县| 遂宁市| 永平县| 钦州市| 阜阳市| 万源市| 青海省|