官术网_书友最值得收藏!

1.3 大數據系統的技術支撐體系

1.3.1 技術支撐體系概覽

大數據的核心價值是決策,但前提是必須有強大的技術支撐。縱觀各種大數據解決方案,我們可以抽象出大數據系統的一般技術支撐體系。

一個完整的大數據系統是由大數據采集、大數據存儲、大數據分析(或數據處理與服務)和大數據應用四個部分構成的。圖1-1給出了大數據系統的技術支撐體系。

圖1-1 大數據系統的技術支撐體系

總體上,大數據系統的底層首先進行大數據采集,其來源具有多樣性;接著通過數據接口(如數據導入器、數據過濾、數據清洗、數據轉換等)將大數據存儲于大規模的分布式存儲系統中;在大數據存儲的基礎上,進一步實現大數據分析(處理與服務),最終是大數據應用。

1.3.2 大數據系統的采集層

本層考慮的第一個問題是數據來源。必須考慮所有渠道的、所有可用于分析的數據,這就要求公司或組織中的數據分析人員闡明執行分析所需要的各種類型數據。這體現出大數據的第一個特性,即大量

技術上包含如下組件:

(1)企業遺留系統。該系統是公司或企業當前的應用程序,它們包括了目前的主要數據。典型的應用系統有:客戶關系管理系統、結算操作、大型機應用程序、企業資源規劃、Web應用程序、數據管理系統(DMS)、存儲了邏輯數據流程策略,以及各種其他類型的文檔,如Microsoft Excel、Microsoft Word等。

(2)數據存儲。數據存儲包含企業數據倉庫、操作數據庫和事務數據庫,這些數據通常是結構化數據,可直接使用或輕松地轉換后來滿足需求。這些數據不一定存儲在分布式存儲系統中,具體依賴于所處的環境。

(3)智能設備。智能設備能夠捕獲、處理和傳輸各類協議和格式的信息,這方面的例子包括智能儀表、攝像頭、錄音設備、醫療設備等,這些設備可用于執行各種類型的分析。絕大多數智能設備都會執行實時分析,從智能設備傳送來的信息也可批量分析。

(4)數據提供程序。這些數據提供程序可擁有或獲取數據,并以復雜的格式和所需的速度通過特定的過濾器公開這些數據。每天都會產生海量的數據,它們具有不同的格式,以不同的速率生成,而且可通過各種數據提供程序、傳感器和現有企業提供。

(5)數據源。有許多數據來源于自動化的系統,地理信息如(地區詳細信息、位置詳細信息、人員詳細信息、車輛詳細信息),人類生成的內容(社交媒體、電子郵件、博客、微信、在線評論),傳感器數據(天氣、降雨量、濕度、電流、能源儲能、導航裝置、電離輻射、亞原子粒子、位置、角度、位移、距離、速度、加速度、振動、熱量、熱度、可見度、壓力、流動、流體、力、密度級別等)。

上述任何一種數據來源都需要依賴特定的技術。但無論技術復雜還是簡單,核心問題都是數據格式、數據類型(基本分為結構化、半結構化或非結構化三類)、數據速率、數據量、數據源的位置(可能位于企業內部或外部)、數據訪問權限(訪問權對數據的訪問會影響可用于分析的數據范圍)。

1.3.3 大數據系統的存儲層

存儲層負責從數據源獲取數據,并在必要時將它轉換為適合數據分析的格式。例如,一幅圖像可能經過轉換后,才能將它存儲在分布式文件系統或關系數據庫管理系統(RDBMS)中,以便進一步處理。注意,規范性制度和治理策略要求為不同類型的數據提供相適應的存儲方式。

在技術上,因為傳入的數據可能具有不同的特征,所以數據變動(或轉碼)和存儲層中的組件必須能夠以不同的速率、格式、大小在不同的通道上讀取數據。

(1)數據獲取。從各種數據源獲取數據,并將其發送到數據整理或存儲在指定的位置中。數據獲取組件必須足夠智能或自動化(人工方式與大數據的特性背道而馳),能夠選擇是否以及在何處存儲傳入的數據,它必須能夠確定數據在存儲前是否應進行變動,或者數據是否可直接發送到分析層。

(2)數據整理。負責將數據轉換為需要的格式,以實現分析用途。數據整理可擁有簡單的轉換邏輯或復雜的統計算法來轉換源數據,分析引擎將會確定所需的特定數據格式。數據整理主要的挑戰是容納非結構化數據格式,如圖像、音頻、視頻和其他二進制格式。

(3)數據分布式存儲。負責存儲來自數據源的數據,通常有多種數據存儲選項,如分布式文件存儲系統、云存儲、非傳統關系型數據庫集群等。

1.3.4 大數據系統的分析層

分析層是大數據系統的核心和關鍵,體現了大數據的價值特性。

分析層從存儲層讀取經過整理后的數據。注意,在某些情況下,分析層可以直接從數據源訪問數據。設計分析層時需要認真地進行籌劃和規劃,必須確定如何管理以下任務的決策:生成想要的分析、從數據中獲取洞察、找到所需的實體、定位可提供這些實體的數據源、理解執行分析需要哪些算法和工具。

技術上包含如下組件:

(1)實體識別。負責識別和填充上下文,這是一個復雜的任務,需要高效、高性能的流程管理系統的支持。數據整理應為這個實體識別提供補充,將數據轉換為需要的格式。分析引擎將需要上下文來進行分析。

(2)分析引擎。使用其他組件(具體來講,包括實體識別和模型管理)來處理和分析數據,分析引擎可以具有支持并行處理的各種不同的工作流、算法和工具。

(3)模型管理。負責維護、驗證和檢驗各種統計模型,通過持續訓練模型來提高準確性。模型管理會推廣這些模型,它們可供實體識別或分析引擎使用。

1.3.5 大數據系統的應用層

應用層使用了分析層所提供的輸出,使用者可以是可視化的應用程序、人工、業務流程或服務。應用層可用于檢測欺詐,實時攔截交易,并將它們與使用已存儲在公司或企業中的數據構建的視圖進行關聯,在發生欺詐性交易時,可以告知客戶可能存在的欺詐,以便及時采取操作。此外,應用層還可以根據分析層的結果來觸發業務流程。例如,如果客戶接收了一條可自動觸發的營銷信息,則需要創建一個新訂單,如果客戶報告了欺詐,那么就可以停止使用信用卡。

分析層的輸出也可被推薦引擎使用,該引擎可將客戶與他們喜歡的產品相匹配。通過分析可用的信息,推薦引擎可以提供個性化且實時的推薦。

應用層還可以為內部用戶提供理解、查詢和定位企業內部或外部信息的能力。對于內部使用者,應用層可為用戶提供構建報告和儀表板的能力,使得利益相關者能夠做出精明的決策并設計恰當的戰略。為了提高操作的有效性,應用層不僅可以從數據中生成實時的警告,還可以實時監視關鍵指標。

在技術上應用層包含如下組件:

(1)事務攔截器。事務攔截器可以集成并處理來自各種來源的數據,如傳感器、智能儀表、攝像頭、GPS設備和圖像掃描儀等;可以使用各種類型的適配器和API來連接數據源;可以使用各種分析器和加速器來簡化開發,如實時優化和流分析器,視頻分析器,銀行、保險、零售、電信和公共運輸領域的加速器,社交媒體分析器,以及情緒分析器。

(2)實時監視。實時監視可以從分析層得到的數據生成實時的警告,并將實時的警告發送給感興趣的使用者和設備,如智能手機和平板電腦;也可以根據分析層生成的數據洞察來定義并監視關鍵指標,以便確定操作的有效性。實時數據能夠以儀表板的形式向用戶公開,以便實時監視系統是否“健康”或度量營銷活動的有效性。

(3)報告引擎。具有生成與傳統商業報告類似的報告的能力是至關重要的,通過報告引擎,用戶可基于分析層得到的數據來創建臨時的報告、計劃的報告,并可進行自主查詢和分析。

(4)推薦引擎。基于分析層的結果,推薦引擎可以向用戶提供實時的、相關的和個性化的推薦,從而提高電子商務交易中的轉換率和每個訂單的平均價值。推薦引擎可以實時處理可用信息,并動態地響應每個用戶,例如響應用戶的實時活動、存儲在CRM系統中的注冊客戶信息,以及非注冊客戶的社交概況。

(5)可視化和發現。數據可能具有不同的內容和格式,所有的數據(如結構化、半結構化和非結構化的數據)可組合起來進行可視化并提供給決策者或任何需要的用戶。此能力使得公司或組織能夠將其傳統的業務內容(包含在企業內部管理系統和數據倉庫中)與新的社交內容(如博客)組合到單個用戶的界面中。

1.3.6 大數據系統的垂直層

影響大數據系統的采集層、存儲層、分析層和應用層的組件都包含在垂直層中,分別是數據集成、數據治理、服務質量和系統管理。

(1)數據集成。垂直層的數據集成可供多種組件(如數據獲取、數據整理、模型管理和事務攔截器等)使用,負責連接到各種數據源。如果需要集成具有不同特征(如協議和連接性)的數據源信息,則需要高質量的連接器和適配器,可以使用加速器(如社交媒體適配器和天氣數據適配器)連接到大多數的數據源。通過數據集成,可以在大數據系統中存儲和檢索信息。

(2)數據治理。數據治理有助于處理企業內部或外部數據的復雜性、量和種類,在將數據傳入企業進行處理、存儲、分析、清除和歸檔時,數據治理可用來監視、構建、存儲和保護數據。除了正常的數據治理需要考慮的因素,數據治理需要考慮的因素還有:管理各種格式的大量數據、持續訓練和管理必要的統計模型、對非結構化數據進行預處理(這是處理非結構化數據的重要一步)、設置保留和使用外部數據的策略、定義數據歸檔和清除的策略、創建跨系統復制數據的策略、設置數據加密的策略。

(3)服務質量。垂直層的服務質量用于定義數據質量、隱私和安全性策略、數據頻率、每次抓取的數據大小,以及數據過濾器。

(4)系統管理。垂直層的系統管理對大數據系統來說是至關重要的,因為它涉及跨企業集群和邊界的許多系統。對整個大數據生態系統的健康狀況的監視包括:管理系統日志、虛擬機、應用程序和其他設備;關聯各種日志,幫助調查和監視具體情形;監視實時警告和通知;使用顯示各種參數的實時儀表板;引用有關系統的報告和詳細分析;設定和遵守服務水平協議;管理存儲和容量;歸檔和檢索管理;執行系統恢復、集群管理、網絡管理和策略管理。

主站蜘蛛池模板: 河池市| 库车县| 汤原县| 哈尔滨市| 唐海县| 凯里市| 洪泽县| 寻甸| 台山市| 行唐县| 临沧市| 德州市| 米泉市| 江山市| 百色市| 宁南县| 柳河县| 凤翔县| 龙泉市| 铅山县| 汉寿县| 梅州市| 名山县| 康乐县| 扎囊县| 乾安县| 长海县| 随州市| 钦州市| 山东| 会理县| 桐柏县| 开化县| 南开区| 柏乡县| 葵青区| 靖远县| 澳门| 珲春市| 鄂托克旗| 慈利县|