官术网_书友最值得收藏!

前言

Data Mesh推動我們在處理數據方面進入了一個新的軌道:在規模化數據分析和人工智能領域如何想象數據,如何獲取和分享數據,以及如何利用數據創造價值。這種新的發展軌道使我們從數據及其所有權的中心化模式轉向去中心化模式。在這條新的道路上,我們擁抱組織的復雜性,以及它們的快速變化和持續成長。Data Mesh的目標是使組織能夠從大規模的數據中獲得價值,盡管這些數據混亂而且組織復雜。

回顧行業歷史,我們也曾被推動過。UNIX的誕生及其哲學(編寫只做一件事的程序,然后把這件事做好;編寫可以一起協作的程序;等等)產生了蝴蝶效應,為我們處理軟件核心的復雜性提供了指導。現在,我們通過分布式架構、面向服務的設計、遵循標準API的通信以及自主領域團隊的組織來處理這種復雜性。我希望Data Mesh為解決數據核心的復雜性提供新的途徑,服務于分析型數據和人工智能領域。

2018年,在觀察了那些在數據技術方面進行了大量投資的先進大型公司從數據中獲取價值的常見失敗模式之后,我完成了Data Mesh的論文。通過觀察它們在擴展數據管理解決方案和組織以滿足它們雄心勃勃的數據愿景方面所做的努力,我對數十年來關于如何從數據中獲取價值的假設提出了質疑,這些假設包括:收集數據;集中存儲數據;讓一個數據團隊負責全部數據,然后再把數據釋放給不同的用戶和用例。我們必須重新審視這些假設。

大約在同一時間,我在紐約的O'Reilly會議上分享了Data Mesh背后的想法。我的演講題目是“超越數據湖”(https://oreil.ly/O3hbf),因為我正在努力解決科技界最難的問題之一:命名。當我說出要從根本上改變我們對數據的看法,并且聽起來有點褻瀆性的話時,我害怕會受到嚴厲的批評,但是聽眾還是積極地接受了我的演講。數據用戶(數據分析師或科學家)很痛苦,他們都在掙扎著想及時獲得高質量和可信的數據。數據工程師也有類似的痛苦,他們夾在數據提供者和數據用戶之間,在沒有與業務密切接觸的情況下,試圖從不可靠的上游數據中獲得價值,并將其轉換成其他人可以使用的形式。聽眾中的一些領導者點頭表示,他們的數據和分析型解決方案的回報率一般。當離開會議的時候,我對超越數據湖更加有信心了。幾個月后,我錯過了一場要在中國舉行的為期一周的技術委員會會議。當時,我三歲的女兒在我將要飛離美國的前一天晚上發燒了。雖然我登上了飛機,掩飾了自己將要與生病的孩子分開一個星期的絕望,但是當飛行員向機組人員宣布要關閉飛機艙門的時候,我崩潰了。于是,我下了飛機。因此我用一個星期的時間把Data Mesh的想法寫成了一篇題為“How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh”的文章(https://oreil.ly/rxjiW),這篇文章發表在了Martin Fowler的網站上。它很成功,獲得了難以置信的閱讀量。現在,三年已經過去了,我寫了這本書,它更加深入地探討了為什么要用Data Mesh,Data Mesh是什么,以及如何實現Data Mesh。

寫作背景

Data Mesh自問世以來,得到了采用它的公司的大力支持。它鼓勵供應商嘗試調整其產品以適應Data Mesh實現。它創造了一個蓬勃發展的學習社區來分享大家的經驗。

在共享和創建數據以支持數據分析和機器學習(ML)用例方面,我們仍然處于早期階段,還存在各種不同的基礎方法。但是,我們的行業趨勢是將各種新概念和流行語滲透得面目全非。因此,我決定寫這本書,以便為未來Data Mesh實現的演進創建一個通用的基礎。我想確保,在建立新的技術解決方案之前,我們要明白為什么需要做出改變,我們正在努力解決的問題是什么,以及如何做到。

本書介紹Data Mesh基礎知識以及它的基本原則,闡述如何應用它的基本原則來創建高層次架構,并展示執行其實現以及轉變組織和文化的工具。

目標讀者

本書是為擁有不同角色和技能的人寫的。Data Mesh是一種范式轉換,它需要許多互補角色和學科的集體努力,以使它可以在任何組織中實現,這些角色包括架構師、實現人員、基礎設施工程師、產品經理、數據領導者和執行人員。

下面簡單介紹本書的主要讀者,以及他們能從本書中學到什么。

?像數據科學家和分析師這樣的分析型數據用戶應該閱讀本書,以了解Data Mesh能為他們帶來什么,以及作為網格(Mesh)的活躍成員,他們如何參與進去,并隨著新的數據產品在網格上共享,轉而提供他們的洞見和推論。

?應用程序團隊或數據工程師等數據提供者應該閱讀本書,以了解Data Mesh如何將操作型數據和分析型數據及應用程序的兩個平面結合起來。他們將掌握如何進入跨領域團隊,以及他們將構建什么樣的架構來支持Data Mesh。

?基礎設施產品所有者、架構師和工程師應該閱讀本書,以了解自助數據平臺的作用和設計,從而創建一套完整的服務,實現規模化的、跨功能領域團隊的、去中心化的數據共享。

?數據治理團隊應該閱讀本書,以便理解新的實現治理目標的結構和方法,這種結構和方法有利于數據的獨立領域所有權,消除組織瓶頸,并高度依賴于自動化和計算。本書介紹了數據治理的新角色和新形態。

?數據領導者、管理者和執行者應該閱讀本書,以了解即將到來的范式轉變,并學會制定基于Data Mesh的數據策略,執行其變革,并在此過程中培育他們的組織。

本書寫給那些有傳統數據和分析背景的人,以及那些更關注軟件和應用程序交付的人。Data Mesh實際上縮小了這兩類人之間的差距。

如果你有傳統數據背景,比如是數據工程師或數據分析師,我建議你放下過去的偏見,對解決分析型數據管理和處理問題的新方法持開放態度,把計算和自動化作為數據不可或缺的伙伴。

如果你有應用程序開發背景,比如是軟件架構師或應用程序基礎設施工程師,請帶著對數據和分析的同理心來閱讀本書,將自己視為共享數據和從數據中獲取價值以改進應用程序的解決方案的一部分。想象一個新的未來,即數據工作和應用程序開發是使解決方案成功的兩個互補部分。

如何閱讀本書

我強烈建議你從引言開始。引言可以幫助你感受和直觀地看到實際的Data Mesh是什么樣子的。它展示了Data Mesh對日常工作的影響,并通過一個虛構的數字流媒體公司(Daff公司)的故事展示了應用Data Mesh的原則。

本書內容主要分為五個部分。

第一部分介紹了Data Mesh的基本原則,并描述了它們的轉換影響。我希望每個人都能閱讀該部分,因為這里的內容引出了圍繞Data Mesh的所有討論。

如果你不確定Data Mesh是不是你的正確選擇,或者你想知道它解決了什么問題以及它如何解決這些問題,或者僅僅是想影響其他人,那么請閱讀本書的第二部分。它比較了Data Mesh與以前的數據架構的區別,并討論了是什么把我們帶到了現在,它為什么不能繼續帶我們到未來。我建議所有讀者都閱讀這些內容。

第三部分適用于所有技術人員、領導者或實踐者。該部分著重于Data Mesh組件的高層次架構。這些組件可以幫助你設計Data Mesh架構以及評估與Data Mesh匹配的現成的技術。

第四部分介紹了Data Mesh中的一個核心概念——數據產品的設計詳情。該部分將簡化復雜的概念,但在必要的細節上不會妥協。對于所有的角色(包括管理者、領導者或實踐者)來說,該部分都比較容易理解。然而,有些人將從該部分中獲得最大收益,他們就是那些要實現Data Mesh的各個方面的技術領導者。

第五部分是總體執行人員的指南,他們影響著數據策略和組織變革。該部分介紹了如何演進式地執行Data Mesh的轉換,以及如何圍繞團隊結構、激勵、文化等做出組織設計決策的可行建議。

排版約定

本書中使用以下排版約定:

斜體(Italic

表示新的術語、URL、電子郵件地址、文件名和文件擴展名。

粗體(Bold)

用于數據域和數據產品名稱。

等寬字體(Constant width)

用于程序清單,以及段落中的程序元素,例如變量名、函數名、數據庫、數據類型、環境變量、語句以及關鍵字。

等寬粗體(Constant width bold

表示應由用戶直接輸入的命令或其他文本。

等寬斜體(Constant width italic

表示應由用戶提供的值或由上下文確定的值替換的文本。

該圖示表示一般性說明。

該圖示表示警告或注意。

O'Reilly在線學習平臺(O'Reilly Online Learning)

40多年來,O'Reilly Media致力于提供技術和商業培訓、知識和卓越見解,來幫助眾多公司取得成功。

我們擁有獨一無二的專家和革新者組成的龐大網絡,他們通過圖書、文章、會議和我們的在線學習平臺分享他們的知識和經驗。O'Reilly的在線學習平臺允許你按需訪問現場培訓課程、深入的學習路徑、交互式編程環境,以及O'Reilly和200多家其他出版商提供的大量文本和視頻資源。請訪問http://oreilly.com了解更多信息。

如何聯系我們

對于本書,如果有任何意見或疑問,請按照以下地址聯系本書出版商。

美國:

O'Reilly Media,Inc.

1005 Gravenstein Highway North

Sebastopol,CA 95472

中國:

北京市西城區西直門南大街2號成銘大廈C座807室(100035)

奧萊利技術咨詢(北京)有限公司

要詢問技術問題或對本書提出建議,請發送電子郵件至errata@oreilly.com.cn

本書配套網站https://oreil.ly/data-mesh上列出了勘誤表、示例以及其他信息。

關于書籍、課程、會議和新聞的更多信息,請訪問我們的網站https://www.oreilly.com

我們在Facebook上的地址:http://facebook.com/oreilly

我們在Twitter上的地址:http://twitter.com/oreillymedia

我們在YouTube上的地址:http://www.youtube.com/oreillymedia

致謝

我想把這本書獻給我的愛人Adrian Paoletti和我的女兒Arianna Paoletti。他們的耐心和無私的愛與支持讓本書得以順利完成。在過去一年半的時間里,為了完成這本書,我們錯過了許多節假日和周末。我將永遠感激他們的理解和愛。我還想把這本書獻給我的母親Nayer Dadpay和妹妹Parisa Dehghani,她們的愛和鼓勵持續推動我完成了這本書。

都說寫書是孤獨的——對我來說不是這樣。我要感謝在本書早期幫忙審校的朋友,他們在我寫作的過程中給予我很多反饋。以下致謝名單沒有特別的順序:Andy Petrella,謝謝你以數據科學家的視角,謙遜和幽默地分享你的觀點;Chris Ford,謝謝你對架構設計的獨到見解,幫助拓寬我的視野;Mammand Zadeh,感謝你經常站在數據基礎設施領導者的位置思考,并總是幫助我把想法變成現實;Martin Fowler,謝謝你的全局視野,幫助我明確了發展方向并澄清了復雜的概念;Danilo Sato和Sam Ramji,感謝你們的指導、智慧和時間。

Thoughtworks的同事參與了科技行業許多劃時代的變革:微服務、持續交付、敏捷等。其背后的原因之一是,Thoughtworks的領導層為追求卓越軟件的分布式創造力創建了合適的環境。Rebecca Parsons和Chris Murphy,謝謝你們支持我寫這本書。我要感謝我在Thoughtworks的同事(排名不分先后):Gagan Madan、Zichuan Xiong、Neal Ford、Samia Rahman、Sina Jahangirizadeh、Ken Collier、Srikar Ayilavarapu、Sheroy Marker、Danilo Sato、Emily Gorcenski、David Colls、Erik Nagler以及很多其他同事。

我要感謝所有在O'Reilly工作的人,是他們讓本書得以出版。在O'Reilly美好而熱情的家庭中,我想特別感謝Gary O'Brien,謝謝他一直以來的支持,他舍棄和家人的周末時光來審閱我的內容、回答我的問題,讓我度過低谷期,放下疑慮,并重回正軌。Melissa Duffield,謝謝他把本書推向市場,幫助我邁出第一步,以非凡的同理心持續支持我。

最后,我要感謝我寫作過程的老師和導師Martin Fowler,感謝他指引我走完每一步。

主站蜘蛛池模板: 镇巴县| 游戏| 伊宁市| 呼图壁县| 沅江市| 衡南县| 阿合奇县| 顺平县| 北票市| 砚山县| 城固县| 横峰县| 松江区| 盖州市| 芮城县| 阿坝| 茂名市| 广灵县| 韩城市| 宜兰市| 哈巴河县| 宜城市| 灵武市| 绵阳市| 临城县| 乐陵市| 红桥区| 万州区| 平山县| 汶上县| 章丘市| 湟源县| 吉隆县| 石门县| 英超| 民权县| 迁西县| 五寨县| 襄垣县| 江城| 武山县|