- 數據質量管理:數據可靠性與數據質量問題解決之道
- (美)巴爾·摩西等
- 534字
- 2024-08-19 16:20:03
2.3.3 什么是湖倉一體
當云倉庫供應商開始添加諸如Redshift Spectrum或Delta Lake等提供湖式好處的功能時,湖倉一體首次出現在人們的目光中。同樣,數據湖也添加了提供倉庫式特性的技術,例如SQL功能和模式。數據倉庫和數據湖之間的差異如今正在不斷縮小,所以你能夠在一個軟件包中獲得兩全其美的體驗。
以下功能正在幫助湖倉一體進一步弱化這兩種技術之間的界限:
高性能SQL
Presto和Spark等技術在數據湖上提供了接近交互速度的SQL界面。這開辟了數據湖直接服務于分析和探索需求的可能性,而無須對傳統數據倉庫進行匯總和ETL。
模式
Parquet等文件格式為數據湖表引入了更嚴格的模式,以及用于提高查詢效率的列式格式。
原子性、一致性、隔離性和持久性(Atomicity,Consistency,Isolation,and Durability,ACID)
Delta Lake和Apache Hudi等數據湖技術在寫入/讀取事務中引入了更高的可靠性,并讓數據湖更接近傳統數據庫技術標準中的理想ACID屬性。
托管服務
對于希望減少與構建和運行數據湖相關的運營成本的團隊,云服務供應商提供了各種托管湖服務。例如,Databricks提供Apache Hive、Delta Lake和Apache Spark的托管版本,而Amazon Athena提供完全托管的數據湖SQL查詢引擎,Amazon的Glue提供完全托管的元數據服務。
隨著為光速分析提供信息的實時數據聚合和數據流傳輸的興起(想想Uber、DoorDash和Airbnb等硅谷科技巨頭的速度),湖倉一體未來幾年可能會在各行各業的數據團隊中變得越來越受歡迎,且越來越重要。
推薦閱讀