官术网_书友最值得收藏!

2.3.3 什么是湖倉一體

當云倉庫供應商開始添加諸如Redshift Spectrum或Delta Lake等提供湖式好處的功能時,湖倉一體首次出現在人們的目光中。同樣,數據湖也添加了提供倉庫式特性的技術,例如SQL功能和模式。數據倉庫和數據湖之間的差異如今正在不斷縮小,所以你能夠在一個軟件包中獲得兩全其美的體驗。

以下功能正在幫助湖倉一體進一步弱化這兩種技術之間的界限:

高性能SQL

Presto和Spark等技術在數據湖上提供了接近交互速度的SQL界面。這開辟了數據湖直接服務于分析和探索需求的可能性,而無須對傳統數據倉庫進行匯總和ETL。

模式

Parquet等文件格式為數據湖表引入了更嚴格的模式,以及用于提高查詢效率的列式格式。

原子性、一致性、隔離性和持久性(AtomicityConsistencyIsolationand Durability,ACID

Delta Lake和Apache Hudi等數據湖技術在寫入/讀取事務中引入了更高的可靠性,并讓數據湖更接近傳統數據庫技術標準中的理想ACID屬性。

托管服務

對于希望減少與構建和運行數據湖相關的運營成本的團隊,云服務供應商提供了各種托管湖服務。例如,Databricks提供Apache Hive、Delta Lake和Apache Spark的托管版本,而Amazon Athena提供完全托管的數據湖SQL查詢引擎,Amazon的Glue提供完全托管的元數據服務。

隨著為光速分析提供信息的實時數據聚合和數據流傳輸的興起(想想Uber、DoorDash和Airbnb等硅谷科技巨頭的速度),湖倉一體未來幾年可能會在各行各業的數據團隊中變得越來越受歡迎,且越來越重要。

主站蜘蛛池模板: 宁强县| 虎林市| 榕江县| 开封县| 八宿县| 手游| 沈丘县| 旬阳县| 开原市| 澎湖县| 修水县| 嘉黎县| 连山| 保亭| 治多县| 广灵县| 黎川县| 许昌市| 石楼县| 余江县| 依兰县| 九龙城区| 林西县| 玛多县| 罗定市| 邵阳市| 慈利县| 龙江县| 合作市| 邛崃市| 奉化市| 石景山区| 基隆市| 玉门市| 巩义市| 高雄县| 浙江省| 南投县| 砀山县| 潮安县| 沂水县|