- Data Mesh權威指南
- (澳)扎馬克·德加尼
- 1057字
- 2023-11-02 19:29:43
序
幾十年來,我一直致力于為大公司開發軟件,如何管理數據一直是一個主要的架構問題。在我職業生涯的早期,人們非常熱衷單個企業范圍的數據模型,這種模型通常存儲在單個企業范圍的數據庫中。但是我們很快發現,讓大量應用程序訪問共享數據存儲是臨時耦合的災難。即使沒有這些,也存在著更深層次的問題。企業的核心概念,比如“客戶”,需要在不同的業務單元中使用不同的數據模型。同時,企業收購進一步加劇了這種復雜性。
作為回應,更明智的企業選擇將數據去中心化,將數據存儲、模型和管理分散到不同的業務單元中。這樣,最了解其領域中的數據的人就負責管理這些數據。它們通過定義良好的API與其他領域協作。由于這些API可以包含行為,因此對于如何共享數據,我們有了更多的靈活性,更重要的是,隨著時間的推移,我們可以演進數據管理的方式。
雖然這已逐漸成為習以為常的方式,但在數據分析領域,它仍然是一項中心化的活動。數據倉庫的目的是提供一個企業存儲庫,存儲經過挑選的關鍵信息。但是這樣一個中心化的團隊的工作很難做,需要應對互相沖突的客戶,特別是在他們對數據或者消費者的需求都沒有一個很好的理解的情況下。數據湖有助于普及對原始數據的訪問,使分析師更接近原始數據源,但太容易成為數據沼澤,其中的數據令人難以理解,也沒有可靠的出處。
Data Mesh試圖將我們從操作型數據中學到的經驗教訓應用到分析型數據中。業務部門負責通過API發布分析型數據,這種方式與操作型數據相同。它們將數據作為最重要的產品來處理,可以傳達數據的意義和來源,并且與它們的消費者協作。為了使這項工作變得可行,企業需要提供一個平臺來構建和發布這些數據產品,同時還需要一個聯邦治理結構來保持它們的一致性。所有這些都是以卓越的技術作為支撐的,以便平臺和產品能夠隨著業務需求的變化而迅速發展。
因此,Data Mesh本質上是一個相當簡單的、應用于分析型數據的數據管理原則。然而,在實踐中,要做到這一點還有很多工作要做,特別是很多供應商的投資都聚焦在中心化的模型上,而不去支持業務系統開發人員所知道的一些實踐(如測試、抽象構建和重構),這些實踐對于健康的軟件至關重要。
Zhamak一直工作在該領域的前沿,為客戶提供前進道路上的建議,從他們的挫折和成功中學習,并推動供應商生產工具,使構建這些平臺變得更加容易。本書收集了她和她的同事在早期但重要的階段在世界各地應用Data Mesh的知識。在審校本書的時候,我就已經學到了很多關于解決這些實際困難的知識。我相信,如果你希望你的組織能最大化利用數據資源,你會發現本書恰好指明了前進道路上的最佳方向。
——Martin Fowler
Thoughtworks 首席科學家
- Modern Programming: Object Oriented Programming and Best Practices
- MongoDB管理與開發精要
- Hadoop與大數據挖掘(第2版)
- Creating Dynamic UIs with Android Fragments(Second Edition)
- Oracle高性能自動化運維
- 深度剖析Hadoop HDFS
- 城市計算
- 數亦有道:Python數據科學指南
- SQL優化最佳實踐:構建高效率Oracle數據庫的方法與技巧
- Proxmox VE超融合集群實踐真傳
- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- Oracle數據庫管理、開發與實踐
- Oracle 11g+ASP.NET數據庫系統開發案例教程
- Internet of Things with Python
- 數據指標體系:構建方法與應用實踐