- 云計算和大數據服務:技術架構、運營管理與智能實踐
- 陳赤榕等
- 2061字
- 2023-09-26 15:57:00
1.5 大數據和數據智能的技術與服務
本節介紹大數據和數據智能相關的技術與服務。
1.5.1 大數據的定義
從圖1-5中可以看到全球數據量的快速增加。
從圖1-5中可以直觀地看到2002年是模擬存儲和數字存儲的分水嶺,2002年之前通過唱片、書籍、磁帶來存儲信息,隨著現實需求及技術的相互促進,2002年之后,大量的光盤、磁盤等出現在市場上,這些設備通過數字化的形式來保存數據,在容量上按照指數級上升,而價格也在指數級下降。1995年時1TB容量的機械硬盤的價格是100萬美元,到了2005年只要80美元,世界上最大的圖書館Library of Congress保存有約3407萬本書籍,數字化后的容量是10TB,也就是只要800美元即可。人類整個手寫作品的容量是50PB,也就是50 000TB,按照2005年的成本是400萬美元。
在一份2001年的研究與相關的演講中,麥塔集團(META Group,現為Gartner公司)分析員道格·萊尼(Doug Laney)指出數據增長的挑戰和機遇有三個特點:量(Volume,數據大?。?、速度(Velocity,數據輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”或“3Vs”。Gartner公司與現在大部分大數據產業中的公司,都繼續使用3V來描述大數據。Gartner公司于2012年修改大數據的定義為“大數據是大量、高速及/或多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最優化處理”。另外,有機構在3V之外定義第4個V:真實性(Veracity)為第四特點。
隨著發展,“大數據”這個術語趨向于對預測性分析、用戶行為分析或者某些從數據中抽取有價值的先進數據分析方法的使用,而較少涉及特定大小的數據集。

圖1-5 全球數據量的增加
2016年又有一個定義指出:“大數據代表了具有如此高的體量、速度和多樣性的信息資產,需要特定的技術和分析方法將其轉化為價值”。除了4V描述(體量、多樣性、速度、真實性)外,又進一步擴展到大數據的其他特征:
· 機器學習(Machine Learning):大數據通常不詢問為什么,而是通過數據分析和挖掘進行模式探測。
· 數字足跡(Digital Footprint):人們在各種數字環境中交流時的數據交互產生的低成本產物。
2018年又有一個大數據的闡述:“大數據是需要并行計算工具處理的數據,這代表了一個在計算機科學中通過并行編程理論被采用的獨特而清晰定義的變化。”
1.5.2 云計算與大數據的關系
云計算是基礎,大數據是上層建筑。通俗的比喻就是云計算和大數據的關系就像是水和魚的關系。
如果把大數據想象成魚,那么云計算則像是魚生活的必要的水環境。因為歸根結底,云計算是為了信息服務的,云計算的唯一目標就是讓信息的交換、存儲和處理能力更強大。云計算為信息的交換提供了更大的帶寬和容錯服務,為信息的存儲提供了近乎無限的容納能力,為信息的處理提供了強大的CPU算力資源和各種方便的分析工具。而數據,特別是大數據,則是信息的載體,是信息在客觀世界的表現形式。大數據是海量信息管理和處置的資產集合,因此需要一個性能、安全性、穩定性都超越以往的計算框架來支持。
表1-1是云計算與大數據的對比。從技術層面看,云計算是不同服務的集合,通過網絡向最終用戶提供服務,從底層的網絡、存儲、服務器,到各種企業應用,而大數據則采用云計算技術。云計算與大數據之間的關鍵區別在于云計算用于處理巨大的存儲容量,以提供各種靈活的技術來處理大量數據,而大數據是用云計算平臺處理的信息。
表1-1 云計算與大數據的對比

云計算與大數據雖然彼此側重不同,但卻是緊密結合,是數據存儲和處理的完美組合。云計算一直是大數據出現的先驅和促進者,如果大數據是內容,那么云計算就是基礎設施。
1.5.3 數據智能
如果數據只是“大”,并沒有太大意義,關鍵是如何最佳地挖掘高價值的數據并使用這些數據,使這些數據成為“智能數據”。
大數據的概念提出來之后,首要解決的問題是基礎的技術及設施問題,例如如何建設海量數據的采集、存儲,開發出處理這些數據的方法和系統等。在解決了這些基礎的技術及設施的建設問題之后,必定需要考慮如何把這些技術和設施充分利用起來,去服務上層的應用服務,滿足用戶各方面的需要。
縱觀大數據行業的發展歷程,從2013年至今,經歷了大數據基礎設施建設階段,利用數據分析與展示等對業務進行的監測階段,再到利用大數據和業務場景進行結合的優化階段,后面必定會發展到滿足快速的業務及其創新的階段。
這個發展過程如果與人類智慧的形成過程作比較,會發現兩者非常相似。
(1)數據→信息:數據(data)經過處理和加工,變成了信息(information)。
(2)信息→知識:信息之間產生了聯系,形成了知識(knowledge)。
(3)知識→洞察:通過現有知識,發現一些知識之間的新關系,于是形成了洞察(insight)。
(4)洞察→智慧:把一系列洞察串聯起來,形成了智慧(intelligence)。
(5)智慧向外傳播,形成了影響力(influence)。
在數據世界中,最終的目的也是通過數據來形成智慧,從而通過各種產品和服務,來形成影響力。
下面總結數據智能的核心,也就是數據智能化企業需要具備的特征:
(1)以大數據作為前提,數據作為生產資料和資產。
(2)采用開放的技術體系,廣泛采用人工智能、機器學習、可視化等技術。
(3)支撐創新迭代、快速滿足個性化的不確定性需求。
(4)提供智能化的服務和產品。
云計算、大數據和數據智能與業務的關系如圖1-6所示。

圖1-6 云計算、大數據、數據智能與業務的關系
- 數據可視化:從小白到數據工程師的成長之路
- 數據之巔:數據的本質與未來
- Access 2007數據庫應用上機指導與練習
- 工業大數據分析算法實戰
- Mockito Cookbook
- 智能數據時代:企業大數據戰略與實戰
- SQL優化最佳實踐:構建高效率Oracle數據庫的方法與技巧
- Lego Mindstorms EV3 Essentials
- Python金融數據分析(原書第2版)
- 大數據架構商業之路:從業務需求到技術方案
- gnuplot Cookbook
- IPython Interactive Computing and Visualization Cookbook(Second Edition)
- 淘寶、天貓電商數據分析與挖掘實戰(第2版)
- 數據庫原理與設計實驗教程(MySQL版)
- 大數據測試技術:數據采集、分析與測試實踐(在線實驗+在線自測)