官术网_书友最值得收藏!

2.3 數據倉庫與數據湖

在數據工程團隊的日常用語中,可能沒有哪兩個詞像數據倉庫和數據湖那樣占據如此多的空間。雖然數據倉庫和數據湖不能互換,但這些技術正在迅速融合,每種技術都提供了兩全其美的優勢。

許多組織確實需要在其數據管道中使用這兩種系統,但它們的用途卻截然不同。數據倉庫通常以結構化(行-列)的格式來存儲數據。此類數據經過了高度轉換(定義的預處理過程的結果),且僅在有明確的存在理由時才會在數據倉庫中出現——至少理論上是這樣的。

相反,數據湖能存儲任何結構化數據、半結構化數據和非結構化數據。與數據倉庫不同,數據湖不需要具有高度指定的數據輸入程序,你可以將任何喜歡的格式轉儲到湖中并直接訪問它。其結果是系統的容量通常更高,并且在治理和數據方面往往更加復雜。

主站蜘蛛池模板: 鹿泉市| 丹寨县| 营口市| 平陆县| 台山市| 龙胜| 峨眉山市| 天镇县| 四平市| 嘉鱼县| 常州市| 德钦县| 合阳县| 庆安县| 洪湖市| 洞头县| 海盐县| 林西县| 石楼县| 汨罗市| 鄱阳县| 疏附县| 青岛市| 岗巴县| 商城县| 菏泽市| 习水县| 崇礼县| 吉安县| 德江县| 柞水县| 和林格尔县| 青冈县| 英吉沙县| 洪泽县| 西青区| 卢龙县| 嘉义市| 吉木乃县| 乌鲁木齐县| 武城县|