官术网_书友最值得收藏!

幾十年來,我一直致力于為大公司開發軟件,如何管理數據一直是一個主要的架構問題。在我職業生涯的早期,人們非常熱衷單個企業范圍的數據模型,這種模型通常存儲在單個企業范圍的數據庫中。但是我們很快發現,讓大量應用程序訪問共享數據存儲是臨時耦合的災難。即使沒有這些,也存在著更深層次的問題。企業的核心概念,比如“客戶”,需要在不同的業務單元中使用不同的數據模型。同時,企業收購進一步加劇了這種復雜性。

作為回應,更明智的企業選擇將數據去中心化,將數據存儲、模型和管理分散到不同的業務單元中。這樣,最了解其領域中的數據的人就負責管理這些數據。它們通過定義良好的API與其他領域協作。由于這些API可以包含行為,因此對于如何共享數據,我們有了更多的靈活性,更重要的是,隨著時間的推移,我們可以演進數據管理的方式。

雖然這已逐漸成為習以為常的方式,但在數據分析領域,它仍然是一項中心化的活動。數據倉庫的目的是提供一個企業存儲庫,存儲經過挑選的關鍵信息。但是這樣一個中心化的團隊的工作很難做,需要應對互相沖突的客戶,特別是在他們對數據或者消費者的需求都沒有一個很好的理解的情況下。數據湖有助于普及對原始數據的訪問,使分析師更接近原始數據源,但太容易成為數據沼澤,其中的數據令人難以理解,也沒有可靠的出處。

Data Mesh試圖將我們從操作型數據中學到的經驗教訓應用到分析型數據中。業務部門負責通過API發布分析型數據,這種方式與操作型數據相同。它們將數據作為最重要的產品來處理,可以傳達數據的意義和來源,并且與它們的消費者協作。為了使這項工作變得可行,企業需要提供一個平臺來構建和發布這些數據產品,同時還需要一個聯邦治理結構來保持它們的一致性。所有這些都是以卓越的技術作為支撐的,以便平臺和產品能夠隨著業務需求的變化而迅速發展。

因此,Data Mesh本質上是一個相當簡單的、應用于分析型數據的數據管理原則。然而,在實踐中,要做到這一點還有很多工作要做,特別是很多供應商的投資都聚焦在中心化的模型上,而不去支持業務系統開發人員所知道的一些實踐(如測試、抽象構建和重構),這些實踐對于健康的軟件至關重要。

Zhamak一直工作在該領域的前沿,為客戶提供前進道路上的建議,從他們的挫折和成功中學習,并推動供應商生產工具,使構建這些平臺變得更加容易。本書收集了她和她的同事在早期但重要的階段在世界各地應用Data Mesh的知識。在審校本書的時候,我就已經學到了很多關于解決這些實際困難的知識。我相信,如果你希望你的組織能最大化利用數據資源,你會發現本書恰好指明了前進道路上的最佳方向。

——Martin Fowler

Thoughtworks 首席科學家

主站蜘蛛池模板: 广州市| 安多县| 毕节市| 楚雄市| 泰宁县| 洞口县| 本溪| 绥棱县| 长垣县| 北碚区| 全州县| 中江县| 老河口市| 伊吾县| 土默特右旗| 安化县| 叙永县| 山东省| 岳阳县| 晋江市| 塘沽区| 囊谦县| 遵化市| 广河县| 蒙自县| 鹰潭市| 溧水县| 金寨县| 平阴县| 麻阳| 台南县| 谢通门县| 阿合奇县| 马山县| 南丰县| 嘉荫县| 平凉市| 平远县| 龙江县| 陕西省| 云和县|