- SequoiaDB分布式數(shù)據(jù)庫權威指南
- 許建輝 (加)陳元熹
- 1177字
- 2022-05-06 18:40:00
1.1.2 新一代分布式數(shù)據(jù)庫的發(fā)展方向——湖倉一體架構
當前,各行各業(yè)的數(shù)字化轉型進入了快車道。數(shù)字化轉型的核心要義是挖掘數(shù)據(jù)的價值。隨著企業(yè)數(shù)字化轉型的深化,跨多業(yè)務、多數(shù)據(jù)類型的新型應用場景不斷涌現(xiàn),海量大數(shù)據(jù)場景下的聯(lián)機交易、非結構化數(shù)據(jù)治理等需求,給企業(yè)的數(shù)據(jù)基礎設施帶來了新的挑戰(zhàn)。
傳統(tǒng)的關系型數(shù)據(jù)庫難以滿足這些新需求。10年前,在全球數(shù)據(jù)庫界仍普遍思考如何利用MySQL、PostgreSQL替代Oracle、DB2的同時,以Snowflake、Databricks及巨杉數(shù)據(jù)庫為代表,聚焦于新一代“湖倉一體”架構的數(shù)據(jù)庫廠商,開始在面向全新海量聯(lián)機業(yè)務的場景中快速崛起。
傳統(tǒng)意義上的數(shù)據(jù)湖和數(shù)據(jù)倉庫存在著顯著的差異。在數(shù)據(jù)湖中,海量數(shù)據(jù)以原生格式(或者經(jīng)過粗加工后)進行積累和沉淀,格式豐富多樣,有結構化、半結構化和非結構化類型,強調數(shù)據(jù)的原始性、靈活性和可用性。而對于數(shù)據(jù)倉庫,其數(shù)據(jù)主要來源于業(yè)務系統(tǒng),存儲格式以結構化為主,并且歷經(jīng)加工清洗,數(shù)據(jù)形態(tài)顯得更加范式化、模型化,因此數(shù)據(jù)的靈活度較低。
目前,很多企業(yè)采用傳統(tǒng)的“湖倉分離”模式,獨立建設了數(shù)據(jù)湖和數(shù)據(jù)倉庫。這雖然在一定程度上實現(xiàn)了功能的互相補充,但企業(yè)在數(shù)據(jù)運營、價值挖掘、運維等方面,卻遇到了顯著的挑戰(zhàn):
● 數(shù)據(jù)湖中的數(shù)據(jù)模型未經(jīng)治理,數(shù)據(jù)混亂,無法進行有效的元數(shù)據(jù)管理、血緣關系管理,在一定程度上形成了“數(shù)據(jù)沼澤”,數(shù)據(jù)價值得不到充分的挖掘。
● 數(shù)據(jù)倉庫和數(shù)據(jù)湖之間,不能實現(xiàn)高時效的數(shù)據(jù)共享,一般需要借助ETL(Extract-Transform-Load)數(shù)據(jù)傳輸來打通。同時,數(shù)據(jù)的冗余存儲帶來了資源的浪費。數(shù)據(jù)湖如果不能充分地進行數(shù)據(jù)共享,終將成為一組組斷開連接的數(shù)據(jù)池或信息孤島的集合。
● 傳統(tǒng)的數(shù)據(jù)湖,對業(yè)務的承載能力很有限,無法對外提供海量數(shù)據(jù)的高性能查詢服務。
● 不同格式的數(shù)據(jù)在轉換處理時,引入了大量的開源模塊,這使得技術棧更加復雜化,尤其是當數(shù)據(jù)容量達到一定量級時,管理和維護成本大幅增加。
在數(shù)字化轉型的全新技術趨勢中,數(shù)據(jù)平臺需要同時承載聯(lián)機業(yè)務與分析能力,因此業(yè)界提出了湖倉一體(Data Lakehouse)的概念,旨在為企業(yè)提供一個統(tǒng)一的、可共享的數(shù)據(jù)底座,避免傳統(tǒng)的數(shù)據(jù)湖、數(shù)據(jù)倉庫之間的數(shù)據(jù)移動,將原始數(shù)據(jù)、加工清洗數(shù)據(jù)、模型化數(shù)據(jù),共同存儲于一體化的“湖倉”中,既能面向業(yè)務實現(xiàn)高并發(fā)、精準化、高性能的歷史數(shù)據(jù)、實時數(shù)據(jù)的查詢服務,又能承載分析報表、批處理、數(shù)據(jù)挖掘等分析型業(yè)務。Data Lakehouse可以支持聯(lián)機交易、流處理和分析,并且同時支持結構化、半結構化和非結構化數(shù)據(jù)的存儲。因此,Data Lakehouse作為數(shù)據(jù)基礎設施,其真正的價值在于打破不同業(yè)務類型、不同數(shù)據(jù)類型之間的技術壁壘,實現(xiàn)交易分析一體化、流批一體化、多模數(shù)據(jù)一體化,最終降低數(shù)據(jù)流動帶來的開發(fā)成本及減少計算存儲的開銷,提升企業(yè)運作的“人效”和“能效”。傳統(tǒng)數(shù)據(jù)平臺與SequoiaDB(巨杉數(shù)據(jù)庫)湖倉一體架構的對比如圖1-2所示。

圖1-2 傳統(tǒng)數(shù)據(jù)平臺與SequoiaDB(巨杉數(shù)據(jù)庫)湖倉一體架構的對比
- SQL Server入門經(jīng)典
- Redis應用實例
- Learn Unity ML-Agents:Fundamentals of Unity Machine Learning
- 數(shù)據(jù)架構與商業(yè)智能
- WS-BPEL 2.0 Beginner's Guide
- 城市計算
- 數(shù)據(jù)庫技術及應用教程
- 金融商業(yè)算法建模:基于Python和SAS
- Python數(shù)據(jù)分析與挖掘實戰(zhàn)(第3版)
- 數(shù)據(jù)庫原理與應用
- 菜鳥學SPSS數(shù)據(jù)分析
- Gideros Mobile Game Development
- Hands-On Deep Learning for Games
- 云工作時代:科技進化必將帶來的新工作方式
- Rust High Performance