書名: 數字化轉型實踐:構建云原生大數據平臺作者名: 金鑫等編著本章字數: 1400字更新時間: 2024-03-22 19:17:18
1.6 云計算中數據技術的演進
數據技術的演進史實際上就是數據量的變化史。在進入互聯網時代后,海量數據帶來的容量問題和成本問題成為阻礙數據技術發展的核心難題。例如,數據保存在存儲介質上,一般通過磁盤陣列或者多副本的方式進行冗余存儲。在做后續數據分析的時候,還需要把這些數據進行抽取、清理并復制到HDFS等分布式存儲上。在通常情況下,HDFS需要做“三副本”,因此一份數據就會占用大量的存儲空間,這要求數據存儲系統具備很強的擴容能力,并且足夠簡便,保證在不停機的情況下完成擴容。本地機房雖然可以通過增加磁盤柜的方式來提高容量,但往往有較長的采購周期,容量問題無法得到完美解決。另外,海量數據也意味著高昂的成本,對于使用大數據的企業來說,成本控制也非常重要。
如今炙手可熱的云計算恰恰可以完美解決本地機房擴容和成本的局限性問題。云計算巨大的規模效應讓用戶無須單獨采購存儲設備,能夠以低廉的價格保存數據,即便面對海量存儲需求,云計算服務遍布全球的數據中心也能確保隨時提供足夠的可用資源。
云計算的歷史最早要追溯到2006年。當時,Amazon已經是著名的在線零售商,為了支持交易高峰期的資源需求,不得不購買大量的服務器。而在非交易高峰時間段,這些服務器會長時間閑置,造成很大的浪費。為了合理利用空閑服務器,Amazon率先推出存儲服務S3和彈性計算服務EC2,云計算正式走上了歷史舞臺。云計算的核心在于其龐大的規模效應,眾多用戶共享大量硬件和軟件服務,由云計算廠商統一運作物理機房。用戶可以根據自己的實際情況按需申請或釋放計算資源,節省成本,無須像維護本地機房那樣購買、安裝或運維服務器和其他硬件設備,在成本降低的情況下還可以獲得更好的穩定性。
在云計算發展早期,各云廠商的數據服務還沒有完全成型,用戶主要利用虛擬機和存儲自行搭建大數據平臺,這在很長的時間里是行之有效的方案。但數據技術的發展日新月異,各種開源產品不斷涌現,很少有人能成為每個技術領域的專家,這也意味著自行搭建一個高可用、高效率且緊跟技術前沿的大數據平臺是一件非常具有挑戰性的工作。有些行業(如金融數據和醫療信息等)還有自己的安全標準和保密性需求,而數據分析往往需要多數據源的相互參考,這也催生出新的安全問題。如何保證運維中數據的安全合規問題亟待解決。在這種情況下,云原生數據服務不斷成熟并越來越受到用戶的青睞。Amazon基于S3、AWS Glue、EMR和RedShift,阿里云基于OSS、Dataworks和MaxCompute,Azure基于數據湖存儲、數據工廠和Synapse Analytics等,均構建起云原生的大數據生態,支持數據引入、數據存儲、數據治理和商業智能。用戶不僅可以在云原生數據倉庫內訪問數據湖里的數據,還可以在保證數據安全的情況下與其他異構數據庫一起進行聯合查詢。云計算讓正在高速發展的數據湖和數據倉庫進一步融合,用戶無須在項目之初就進行技術路線的選擇,只需要根據業務發展情況,隨時隨地利用云原生技術豐富自己的技術棧。
2008年10月27日,在洛杉磯舉行的開發者大會PDC2008上,時任微軟首席架構師的Ray Ozzie宣布推出服務全球的云計算平臺Azure。發展至今,Azure已經涵蓋全球61個區域,提供近200項服務,圖1-3所示為當前Azure上的數據服務生態體系。
本書將以Azure為例,展現如何通過云原生服務將數據存儲、數據引入、批量數據處理、實時數據處理、數據倉庫、數據可視化和機器學習等核心要素綜合起來,構建一個高效的數據服務平臺。
由于后續章節要基于Azure服務進行講解,請讀者確保已有可用的Azure資源,或者通過https://azure.microsoft.com/en-us/free/獲得賬號。

圖1-3 當前Azure上的數據服務生態體系