- 數據質量管理:數據可靠性與數據質量問題解決之道
- (美)巴爾·摩西等
- 324字
- 2024-08-19 16:20:02
2.3 數據倉庫與數據湖
在數據工程團隊的日常用語中,可能沒有哪兩個詞像數據倉庫和數據湖那樣占據如此多的空間。雖然數據倉庫和數據湖不能互換,但這些技術正在迅速融合,每種技術都提供了兩全其美的優勢。
許多組織確實需要在其數據管道中使用這兩種系統,但它們的用途卻截然不同。數據倉庫通常以結構化(行-列)的格式來存儲數據。此類數據經過了高度轉換(定義的預處理過程的結果),且僅在有明確的存在理由時才會在數據倉庫中出現——至少理論上是這樣的。
相反,數據湖能存儲任何結構化數據、半結構化數據和非結構化數據。與數據倉庫不同,數據湖不需要具有高度指定的數據輸入程序,你可以將任何喜歡的格式轉儲到湖中并直接訪問它。其結果是系統的容量通常更高,并且在治理和數據方面往往更加復雜。
推薦閱讀
- 大數據技術基礎
- Hands-On Data Structures and Algorithms with Rust
- 算法競賽入門經典:習題與解答
- 區塊鏈通俗讀本
- WS-BPEL 2.0 Beginner's Guide
- 智能數據時代:企業大數據戰略與實戰
- Starling Game Development Essentials
- Python金融數據分析(原書第2版)
- 信息學競賽寶典:數據結構基礎
- 智慧的云計算
- 大數據技術原理與應用:概念、存儲、處理、分析與應用
- Expert Python Programming(Third Edition)
- 數字化轉型實踐:構建云原生大數據平臺
- Learning Ansible
- NoSQL數據庫原理(第2版·微課版)