官术网_书友最值得收藏!

前言

你是否經歷過以下任何一種情況:

● 在一個關鍵(且相對可預測)的表中,5000行突然變成500行,且沒有任何規律或原因。

● 損壞的儀表板導致執行儀表板顯示空值。

● 隱藏的模式更改中斷了數據的下游管道。

這樣的例子不勝枚舉。

這本書為那些或多或少曾遭受不可靠數據困擾并想為此做些什么的人而寫。我們預計這些人將擁有數據工程師、數據分析師或數據科學家的背景,并積極參與公司數據管道的構建、擴展和管理。

從表面上看,本書似乎是一本關于如何清洗、整理和理解數據的手冊——而它確實如此。但更重要的是,本書還介紹了圍繞構建更可靠的數據系統的最佳實踐、技術和流程,并在此過程中培養團隊和利益相關方對數據的信任。

在第1章中,我們將討論為什么數據質量現在值得關注,以及架構和技術趨勢是如何導致治理水平和可靠性整體下降的。我們將引入“數據宕機”(data downtime)的概念,并解釋它是如何追溯到早期的站點可靠性工程(SRE)團隊的,以及如何將這些開發運營(DevOps)原則應用于數據工程工作流。

在第2章中,我們將通過介紹如何跨多個關鍵數據管道技術[包括數據倉庫(data warehouse)、數據湖(data lake)和數據目錄]解決和度量數據質量,來強調如何構建更具彈性的數據系統。上述三種基本技術存儲、處理和跟蹤數據健康預生產,而這會自然引導我們進入第3章。在第3章中,我們將介紹如何在考慮質量和可靠性的前提下收集、清洗、轉換和測試數據。

第4章將通過分享如何使用公開的系外行星數據集構建數據質量監測器,來介紹數據可靠性工作流中最重要的方面之一——主動異常檢測與監控。盡管篇幅有限,但該章將讓讀者有機會直接將他們在本書中學到的內容應用到工作中。

第5章將為讀者提供一個鳥瞰圖,了解如何將這些關鍵技術組合在一起并構建強大的系統和流程,以確保無論用例如何都能度量并維護數據質量。我們還將分享Airbnb、Uber、Intuit等公司的一流數據團隊如何將數據可靠性集成到日常工作流中,包括設置服務級別協議(Service Level Agreement,SLA)、服務級別指標(Service Level Indicator,SLI)和服務級別目標(Service Level Objective,SLO),以及構建由5個關鍵支柱——新鮮度(freshness)、容量(volume)、分布(distribution)、模式(schema)和沿襲(lineage)組成的優化數據質量的數據平臺。

在第6章中,我們將深入探討在生產環境中實際應對和解決數據質量問題所需的步驟,包括數據事件管理、根因分析、事后分析以及建立事件溝通最佳實踐。在第7章中,讀者將通過學習如何使用每個數據工程師都應掌握的流行且被廣泛采用的開源工具來構建字段級沿襲,從而進一步加深對根因分析的理解。

在第8章中,我們將討論數據團隊在大規模宣傳和普及數據質量時必須跨越的一些文化和組織障礙,包括最優原則(如將數據視為產品)、了解公司的數據質量RACI(Responsible、Accountable、Consulted、Informed)矩陣,以及如何構建數據團隊來獲得最大的業務影響。

在第9章中,我們將分享幾個真實案例研究和與數據工程領域領軍人物的對話,包括數據網格(data mesh)的創建者Zhamak Dehghani、分享其團隊向去中心化(數據質量第一!)數據架構遷移故事的António Fitas,以及福克斯(Fox)數據服務副總裁Alex Tverdohleb——他也是“克制的自由”數據管理技術的先驅。這種理論與實際示例的結合將幫助你生動形象地理解我們在第1~8章中強調的幾個技術和流程驅動的數據質量概念。

最后,在第10章中,我們將用一個具體的計算來度量不良數據對業務的財務影響(以工時為單位),以此來幫助讀者(其中許多人負責修復數據宕機),讓領導層有理由投資更多的工具和流程來解決這些問題。我們還將重點介紹我們對未來數據質量的4個預測,因為這與更廣泛的行業趨勢相關,例如,分布式數據管理和湖倉一體的興起。

我們希望你在閱讀完這本書后,當在整個組織中確定數據質量和可靠性的優先級時,至少能夠掌握一些訣竅。正如任何一位經驗豐富的數據領導者都會告訴你的那樣,數據信任絕非一日之功,但只要通過正確的方法,就能逐漸取得進步。

排版約定

本書中使用以下排版約定:

斜體(Italic

表示新的術語、URL、電子郵件地址、文件名和文件擴展名。

等寬字體(Constant width)

用于程序清單,以及段落中的程序元素,例如變量名、函數名、數據庫、數據類型、環境變量、語句以及關鍵字。

該圖示表示提示或建議。

該圖示表示一般性說明。

示例代碼

可以從https://oreil.ly/data-quality-fundamentals-code下載補充材料(示例代碼、練習、勘誤等)。

這里的代碼是為了幫助你更好地理解本書的內容。通常,可以在程序或文檔中使用本書中的代碼,而不需要聯系O'Reilly獲得許可,除非需要大段地復制代碼。例如,使用本書中所提供的幾個代碼片段來編寫一個程序不需要得到我們的許可,但銷售或發布O'Reilly的示例代碼則需要獲得許可。引用本書的示例代碼來回答問題也不需要許可,將本書中的很大一部分示例代碼放到自己的產品文檔中則需要獲得許可。

非常歡迎讀者使用本書中的代碼,希望(但不強制)注明出處。注明出處時包含書名、作者、出版社和ISBN,例如:

Data Quality Fundamentals,作者Barr Moses、Lior Gavish和Molly Vorwerck,由O'Reilly出版,書號978-1-098-11204-2。

如果讀者覺得對示例代碼的使用超出了上面所給出的許可范圍,歡迎通過permissions@oreilly.com聯系我們。

O'Reilly在線學習平臺(O'Reilly Online Learning)

40多年來,O'Reilly Media致力于提供技術和商業培訓、知識和卓越見解,來幫助眾多公司取得成功。

我們擁有獨一無二的專家和革新者組成的龐大網絡,他們通過圖書、文章、會議和我們的在線學習平臺分享他們的知識和經驗。O'Reilly的在線學習平臺允許你按需訪問現場培訓課程、深入的學習路徑、交互式編程環境,以及O'Reilly和200多家其他出版商提供的大量文本和視頻資源。有關的更多信息,請訪問https://oreilly.com

如何聯系我們

對于本書,如果有任何意見或疑問,請按照以下地址聯系本書出版商。

美國:

O'Reilly Media,Inc.

1005 Gravenstein Highway North

Sebastopol,CA 95472

中國:

北京市西城區西直門南大街2號成銘大廈C座807室(100035)

奧萊利技術咨詢(北京)有限公司

要詢問技術問題或對本書提出建議,請發送電子郵件至errata@oreilly.com.cn

本書配套網站https://oreil.ly/data-quality-fundamentals上列出了勘誤表、示例以及其他信息。

關于書籍和課程的新聞和信息,請訪問我們的網站https://oreilly.com

我們在LinkedIn上的地址:https://linkedin.com/company/oreilly-media

我們在Twitter上的地址:https://twitter.com/oreillymedia

我們在YouTube上的地址:https://youtube.com/oreillymedia

致謝

這本書是愛的結晶,因此我們要感謝很多人。

首先,我們要感謝無所畏懼的策劃編輯Jess Haberman,她對我們的每一步都充滿信心。當Jess向我們提出寫一本關于數據質量的書的想法時,我們都大吃一驚。我們沒有想到數據可靠性這個如此貼近我們內心的話題,會在我們的個人博客文章之外找到共鳴。在她的奉獻和鼓勵下,我們起草了一份提案,將其與該領域已發表的內容區分開來,并最終撰寫了此書——這將為其他與數據宕機作斗爭的數據從業人員帶來價值。

我們還必須感謝內容編輯Jill Leonard,他在整個寫作過程中擔任了尤達[1]的角色。從提供關于流程和副本的寶貴指導,到參加鼓舞士氣的談話和頭腦風暴會議,Jill是帶領我們到達終點的絕地武士。

我們永遠感謝技術審稿人Tristan Baker、Debashis Saha、Wayne Yaddow、Scott Haines、Sam Bail、Joy Payton和Robert Ansel,感謝他們對本書的多個草稿進行了大幅編輯并提供了有價值的反饋。他們對將DevOps最佳實踐和良好數據衛生帶到該領域的熱情是一種激勵,我們很榮幸能與他們合作。

我們還想對Ryan Kearns表示萬分感謝,他是本書的撰稿人之一,他的名字本可以出現在署名欄上。從引領最初幾章內容的創作到對所討論的技術和過程提供批判性見解,如果沒有他的幫助,這本書就不會問世。我們每天都在向他學習,在未來幾年里,Ryan無疑將成為數據工程和數據科學領域最重要的人物之一。

我們為寫作本書采訪了幾位行業專家和開拓者,并在過去的一年里開展了各種各樣的項目。不分排名先后,我們要感謝Brandon Beidel、Alex Tverdohleb、António Fitas、Gopi Krishnamurthy、Manu Raj、Zhamak Dehghani、Mammad Zadeh、Greg Waldman、Wendy Turner Williams、Zosia Kossowski、Erik Bernhardsson、Jessica Cherny、Josh Wills、Kyle Shannon、Atul Gupte、Chad Sanderson、Patricia Ho、Michael Celentano、Prateek Chawla、Cindi Howson、Debashis Saha、Melody Chien、Ankush Jain、Maxime Beauchemin、DJ Patil、Bob Muglia、Mauricio de Diana、Shane Murray、Francisco Alberini、Mei Tao、Xuanzi Han和Helena Munoz。

我們還要感謝Brandon Gubitosa、Sara Gates和Michael Segner,感謝他們在大綱和草稿方面的幫助。

我們也要感謝我們的父母Elisha和Kadia Moses、Motti和Vira Gavish、Gregg和Barbara Vorwerck,他們鼓勵我們追求數據工程和數據質量,無論是成立一家致力于這個概念的公司,還是撰寫本書。我們還要感謝Rae Barr Gavish(RBG)成為我們的頭號粉絲,并感謝Robert Ansel成為我們的常駐網站可靠性工程師、WordPress顧問和開發運營專家。

我們永遠感謝我們的客戶,他們幫助我們開拓了數據可觀測性領域,并通過這一過程為未來大規模可靠數據的發展奠定了基礎。


[1]:尤達是《星球大戰》系列作品中的重要人物,德高望重。

主站蜘蛛池模板: 阿克| 冀州市| 广昌县| 长宁区| 舞阳县| 海南省| 毕节市| 慈利县| 莫力| 亚东县| 太白县| 犍为县| 会昌县| 永康市| 湖北省| 平乐县| 鹤壁市| 望奎县| 玛沁县| 濮阳市| 中超| 上思县| 贺州市| 白山市| 曲麻莱县| 清丰县| 历史| 宣城市| 三穗县| 额敏县| 晋城| 从化市| 江川县| 车险| 绥中县| 浙江省| 双牌县| 柳林县| 宜昌市| 巴塘县| 津南区|