官术网_书友最值得收藏!

第1章
為什么數據質量值得關注

數據是你的CEO的首要任務,對于以數字為先的公司來說,通常如此,她非常熟悉最新和最好的商業智能(BI)工具。你的CTO對將業務遷移到云上感到非常興奮,并不斷向你的團隊發送相關文章,重點介紹一些針對最新技術的性能度量方法。你的下游數據消費者(包括產品分析師、營銷領導者和銷售團隊)則依賴于數據驅動的工具,例如,客戶關系管理/客戶體驗平臺(CRM/CXP)、內容管理系統(CMS)以及任何其他相關工具,以便讓他們能夠快速有效地完成工作。

作為負責管理這些數據并使其可用、可訪問和可信賴的數據分析師或工程師,你幾乎每天都會處理一些相關人員的請求。但如果數據是錯誤的,會發生什么呢?

你是否曾經在經過一天長時間運行查詢或構建數據管道后,被你的營銷主管打電話告知在關鍵報告中出現了“數據丟失”?如果你的CTO發來一封關于在商業智能儀表板中出現“重復數據”的瘋狂電子郵件,你會怎么辦?或者,你那位非常看重數據的CEO發來了一份備忘,里面提到在他最新的數據面板上有一個令人困惑或不準確的數字,你要怎樣做呢?

如果這些情況中的任何一種都讓你感同身受,那說明在這個過程中你并不是孤軍奮戰。

這個問題通常被稱為“數據宕機”,即使是最具創新性和數據優先的公司也會遇到這種情況。而且在我們看來,這也是21世紀企業面臨的最大挑戰之一。數據宕機是指數據丟失、不準確或出現錯誤的情況,它表現為過時的儀表板、不準確的報告,甚至是糟糕的決策。

數據宕機的根源是不可靠的數據,這樣的數據不勝枚舉。

數據宕機每年都可能使公司損失數百萬美元(https://oreil.ly/FF8kC),更不用說丟掉客戶信任了。事實上,ZoomInfo在2019年發現,五分之一的公司都曾因為數據質量問題而失去了客戶。

正如你可能意識到的那樣,受數據宕機影響的不僅僅是公司的利潤。處理數據質量問題將消耗數據團隊40%以上的時間(https://oreil.ly/HEpED),這些時間本可以用于更有趣的項目或進行真正的業務創新。

這個統計數據可能對你來說并不意外,對我們來說當然也不。

Barr Moses此前曾在一家客戶成功軟件公司擔任運營副總裁。她的團隊負責管理更廣泛業務的報告,從為CEO生成儀表板以供在全員會議期間使用,到根據用戶指標制定減少客戶流失的策略。她負責管理公司的數據運營并確保利益相關方在使用數據時能夠取得成功。

Barr永遠不會忘記,有一天當她結束了長達數小時的激烈規劃會議后回到辦公桌前,她在計算機顯示器上發現了一張寫有“數據錯了”字樣的便利貼。這種穿幫的情況不僅令人尷尬,而且并不少見。她和她的團隊會一次又一次地遇到這些無聲的、微小的但又可能有害的數據問題。

所以,必須找到更好的方法來解決問題。

數十年來,無論是報告不力、虛假信息還是技術錯誤造成的糟糕數據質量和不可靠的數據,一直都是組織所面臨的重要問題。隨著組織越來越多地利用數據并構建越來越復雜的數據生態系統和基礎設施,這一問題只會變得越來越嚴重。

“壞數據”(bad data)和糟糕的數據質量這兩個概念幾乎與人類存在的時間一樣長,盡管形式各有不同。對于Robert Falcon Scott船長和其他早期的南極探險者來說,糟糕的數據質量(或者更確切地說,缺乏數據支撐的決策)導致他們無法準確預測到達目的地(南極)所需的時間和準確位置。

近年來發生的一些事情依然令我們記憶猶新。以1999年臭名昭著的火星氣候軌道飛行器墜毀事件為例——美國航空航天局(NASA)的火星氣候軌道飛行器由于數據輸入錯誤而墜毀,該數據輸入錯誤產生了非國際單位制(non-SI)而不是國際單位制(SI)的輸出,使其過于接近火星。這次墜毀事故給NASA造成了1.25億美元的巨大損失。與航天器一樣,分析管道在過程的任何階段都極易受到最無害變化的影響,而這僅僅只是表面上的問題。

Barr的便利貼事件讓她想道:“我可不能孤軍奮戰!”所以,她和Lior Gavish一起著手來尋找“數據宕機”問題的根本原因。他們一起就所面臨的最大問題采訪了數百個數據團隊,而數據質量一次又一次地排在首位。從電子商務到醫療保健,各行各業的公司都面臨著類似的問題:模式更改導致數據管道損壞、重復的行/列出現在業務的關鍵報告中、數據在儀表板上丟失等問題都讓他們不得不付出大量的時間、金錢和資源來進行修復。我們還意識到,需要有一種更好的方式來溝通和解決數據質量問題,作為提高數據可靠性的迭代循環并建立推動數據信任文化的一部分。

這些對話啟發我們編寫本書,來記錄我們在數據管道(從接收到分析)的各個階段中所學到和開發的一些與管理數據質量相關的最佳實踐,并分享在類似情況下,數據團隊要如何防止數據宕機。

就本書而言,“生產中的數據”指的是來自源系統(如CRM、CMS和前面提到的其他類似系統的數據庫)的數據,這些數據已經被數據倉庫(data warehouse)、數據湖(data lake)或其他數據存儲和處理解決方案接收,并通過數據管道流動(提取-轉換-加載,即ETL),以便分析層將其呈現給業務用戶。數據管道既可以處理批數據,也可以處理流數據,并且在較高的層次上,度量這兩種類型數據質量的方法都大致相同。

數據宕機是軟件工程和開發人員運營的必然結果,在這個世界中,應用程序的正常運行時間或宕機時間[即你的軟件或服務可用(正常運行)或不可用(停機)的頻率]都被仔細度量,以確保軟件的可訪問性和性能。許多站點可靠性工程師都使用“正常運行時間”作為度量標準,因為它直接關系到軟件性能不佳對業務的客戶影響。在“五個九”(即99.999%的正常運行時間)可靠性正在成為行業標準的世界中,我們該如何將其應用于數據呢?

在本書中,我們將討論當前數據團隊要如何構建更靈活的技術、團隊和流程,以確保整個組織的高數據質量和高可靠性。

在本章中,我們將首先定義數據質量在本書中的含義。接下來,我們將構筑當下,以更好地理解為什么數據質量對數據領導者來說比以往任何時候都更加重要。最后,我們將進一步研究一流團隊是如何在數據管道的每個階段實現高數據質量的,以及如何保持大規模的數據信任。本書主要關注數據質量,它為構建決策儀表板、數據產品、機器學習模型和其他數據科學輸出的數據分析數據管道提供動力。

主站蜘蛛池模板: 启东市| 龙岩市| 东至县| 仁怀市| 梅河口市| 丰宁| 克什克腾旗| 科技| 阜新市| 双辽市| 安达市| 扬中市| 响水县| 濉溪县| 云霄县| 邹城市| 高雄县| 富平县| 白银市| 楚雄市| 桂平市| 鄂州市| 淮北市| 莎车县| 洛浦县| 来宾市| 德格县| 鹤壁市| 山西省| 苍山县| 历史| 开封县| 宁武县| 东城区| 青神县| 嘉祥县| 墨竹工卡县| 荥经县| 崇礼县| 浠水县| 鹤庆县|