1.3 大數據的商用化
大數據是傳統的架構、傳統的技術無法解決的數據處理問題。Hadoop的出現,解決了大數據的快速存儲和讀取,也為我們提供了大數據分析的眾多工具,但是,對于大數據商用而言,這并不夠!因為大數據的名字有“大”,所以很多人把重點集中在了數據的容量上,簡單地認為數據量是最大的問題。實際上大數據除了數據量的問題外,還會把信息管理的各項需求都推向極致(如圖1-1所示)。

圖1-1 大數據商用需求
最下面的這一層是大數據基本的問題,包括大數據量、多樣性、高速和低價值。解決這四個方面的問題只是大數據商用化的基礎,這只是支撐起大數據的平臺。Hadoop技術很好地解決了這一層的問題。Hadoop也被認為是下一代IT架構的基礎,Hadoop系統將逐步替換以關系型數據庫為基礎的傳統系統。
中間這一層是關于訪問權限的問題。數據的敏感性是一個很基礎的問題,但是現有的Hadoop技術還沒有對數據的敏感性提供可行的解決方案。那些提供大數據解決方案的IT企業不僅僅要關注大數據的4V量化指標,還需要把注意力放在“數據敏感性分級”上。國內超過80%的數據在政府的系統內。如果我們的大數據解決方案沒有給政府數據提供諸如敏感性分級的權限管理機制,那么,政府是很難往前邁一步的。比如:公安、稅務、工商等各部門的數據在一個平臺上所產生的訪問控制問題。共享協議是指數據將會以什么形式,通過什么樣的接口實現數據交換,這是大數據的重點問題之一。數據交換的所有的方式都是以標準的協議來支持,因為在大數據的時代,數據的來源本身是多樣性的,數據的格式甚至是無法管理的,很多的數據是來自于企業的外部,來自于互聯網的提供商。到底如何通過這些協議和統一數據模型自動化地將數據放到大數據平臺上來,這是一個很嚴重的問題。Hadoop本身并沒有技術工具來解決這些方面的問題。
最上面一層是有關大數據質量的管理。數據本身是一種資產,資產質量怎么來衡量,我們如何確保數據的質量。這個也是我們在實施大數據商用上需要考慮的一個問題。質量管理是傳統的數據管理里非常重要的一個方面,這包括數據的有效性和有效期限。Hadoop本身并沒有技術工具來解決這些方面的問題,但是我們需要相應的大數據工具和技術來解決這些問題,這就是我們下面闡述的大數據管理平臺的作用。除了提供大數據質量的管理,這個管理平臺還提供上述的大數據訪問的權限管理等功能。
如圖1-2所示,從用戶的角度,從大數據平臺的功能性的角度來看,我們把大數據平臺細分為三個平臺:大數據云平臺、大數據管理平臺和大數據應用(分析)平臺。大數據采集(也叫數據交換和共享)包含在大數據管理平臺之中。

圖1-2 大數據建設總體架構圖
大數據云平臺是集約化建設的IT基礎設施層,為大數據處理和應用提供統一的基礎支撐服務;大數據管理平臺是數據資源層,為大數據應用提供統一數據采集、分析和處理等支持服務;大數據應用平臺是業務應用層,為大數據在各領域的應用提供綜合服務。從邏輯結構上看,很多大數據應用需要基于大數據管理平臺,而Hadoop技術只能完成大數據的底層功能,即:大數據的快速采取、存儲和讀取,所以Hadoop是大數據管理平臺的基礎。正是因為Hadoop缺少相應的數據管理技術和工具的支持,上述的一些非常基本的商用問題到現在還沒有解決,這就凸顯了大數據管理平臺的重要性。只有提供了統一的大數據管理平臺,數據的集成尤其是跨行業、跨不同的部門、跨各種技術的集成才能成為可能。整個大數據應用的架構必然是構建在一個大數據管理平臺之上,這才可能實現大數據應用的大規模商用和普及,而不應該只是基于裸露的Hadoop。
大數據顧名思義數據量龐大。在大數據時代,企業的數據不僅僅有傳統的結構化數據,還有各類非結構化數據。結合對數據吞吐量的合理設計,將這些數據采集到大數據平臺應該不會是很難的事情。比較難的是數據的轉換、協調、確保不同數據源之間的一致性、檢查數據的質量,這些是大數據采集中比較難實施的部分,而且在這些方面我們可用的自動化工具較少。
國內的大數據軟件企業基本上都處于相對初級的階段。很多新興的公司提供Hadoop的發行版本的安裝和配置,并針對Hadoop提供了一些定制化的應用。國內大數據軟件產品和技術就是處于這么一個剛剛開始的狀態。數據訪問、安全、隱私、歸檔等,對數據管理來說,一些非常重要的、甚至于可以說是非常致命的需求,到現在仍然沒有足夠的解決方案。我們必須重點關注有關數據管理的問題,因為這可能是大數據商用解決方案中的一個最薄弱的環節。
- 數據之巔:數據的本質與未來
- Architects of Intelligence
- Spark大數據分析實戰
- Voice Application Development for Android
- SQL Server 2008數據庫應用技術(第二版)
- Game Development with Swift
- 商業分析思維與實踐:用數據分析解決商業問題
- R數據科學實戰:工具詳解與案例分析(鮮讀版)
- 數據革命:大數據價值實現方法、技術與案例
- Learning Proxmox VE
- 從0到1:JavaScript 快速上手
- SQL優化最佳實踐:構建高效率Oracle數據庫的方法與技巧
- 圖數據實戰:用圖思維和圖技術解決復雜問題
- 辦公應用與計算思維案例教程
- 視覺大數據智能分析算法實戰