- 數據質量管理:數據可靠性與數據質量問題解決之道
- (美)巴爾·摩西等
- 1643字
- 2024-08-19 16:19:59
1.2.2 促成當前形勢的其他行業趨勢
除了上述經常導致數據宕機的因素外,由于技術創新正在推動數據格局的轉變,一些行業也正在發生轉變。這些轉變都促成了對數據質量的高度關注。
數據網格
正如軟件工程團隊從單體應用程序過渡到微服務架構一樣,數據網格在許多方面都是微服務的數據平臺版本。值得注意的是,數據網格的概念還處于萌芽階段,數據社區中有很多關于如何(或是否有意義)在文化和技術層面上執行數據網格的討論。
正如Thoughtworks顧問兼該術語的原始架構師Zhamak Dehghani首次定義的那樣(如圖1-1所示),數據網格是一個社會技術范式,它識別了在復雜組織中人員與技術架構和解決方案之間的交互。數據網格通過利用面向域的自助設計來包含企業中無處不在的數據。它利用了Eric Evans的領域驅動設計理論,這是一種靈活、可擴展的軟件開發范式,可以將代碼的結構和語言與其相應的業務領域進行匹配。
與傳統的整體數據基礎設施(在一個集中式數據湖中處理數據的消耗、存儲、轉換和輸出)不同,數據網格支持分布式、特定域的數據消費者且視“數據即產品”,在每個域中處理自己的數據管道,連接這些域及其相關數據資產的組織是應用相同語法和數據標準的通用互操作層。
數據網格聯合了負責將數據作為產品提供的域數據所有者之間的數據所有權,同時也促進了跨不同位置的分布式數據之間的通信。
雖然數據基礎設施負責為每個域提供用于處理數據的解決方案,但域的任務是管理數據的接收、清洗和聚合,以生成可供商業智能應用程序使用的資產。每個域負責擁有它們自己的管道,但所有域都應具有存儲、編錄和維護訪問控制原始數據的能力。一旦數據被提供給一個指定的域并由其轉換,該域的所有者就可以利用這些數據來滿足其分析或運營需求。
只有當數據可靠且值得信賴,并且跨域應用此“通用互操作層”時,數據網格范式才能成功。而數據可靠和值得信賴的唯一方法是通過測試、監控和可觀測性來密切關注數據質量。

圖1-1:由Zhamak Dehghani開創的數據網格推動了一種去中心化、面向域的數據架構,該架構依賴于高質量的可靠數據和通用治理
許多公司正在采用數據網格范式,尤其是需要多個數據域的大型組織。例如,在Intuit的前數據工程副總裁Mammad Zadeh與Intuit的核心服務和體驗高級副總裁Raji Arasu于2021年1月撰寫的博客文章(https://oreil.ly/oxTyk)中,Intuit將自己定位為“由人工智能驅動的專家平臺公司”,其平臺“收集、處理并將穩定的數據流轉換為高質量的數據網格”。另一個例子是摩根大通(https://oreil.ly/Tga4W),它構建了一個數據網格基礎設施來幫助公司劃分離散分析函數之間的數據所有權,并提高對整個企業數據共享的可見性。
無論你對數據網格的看法如何,它無疑席卷了數據社區,并引發了關于我們未來分布式數據架構和團隊結構的精彩對話和博客文章(https://oreil.ly/rcFTp)。
流數據
流數據指的是將連續的數據流傳輸到管道中,從而快速生成實時洞察的過程。傳統上,數據質量是通過批式數據進入生產管道前對其進行測試來強制執行的,但越來越多的企業正在尋求更為實時的分析。雖然這有可能提高洞察的速度,但也帶來了與數據質量相關的更大問題和挑戰,因為流數據是“處于動態中”的數據。
越來越多的組織同時采用批處理和流處理,這迫使數據團隊重新思考測試和觀察數據的方法。
湖倉一體(data lakehouse)的興起
數據倉庫還是數據湖?至少如果你去問數據工程師的話,這會是一個問題。數據倉庫(結構化數據存儲庫)和數據湖(原始非結構化數據池)都依賴于高質量的數據來進行處理和轉換。越來越多的數據團隊選擇同時使用數據倉庫和數據湖來滿足其業務不斷增長的數據需求。而湖倉一體也就應運而生。
當云倉庫供應商開始添加諸如Redshift Spectrum或Databricks Lakehouse等提供湖式好處(lake-style benefits)的功能時,湖倉一體首次出現在人們的目光中。同樣,數據湖也添加了提供倉庫式功能的技術,例如SQL功能和模式。今天,數據倉庫和數據湖之間的歷史差異正在縮小,因此你可以在一個包中獲得兩全其美的體驗。
這種向湖倉一體模型的遷移表明管道正變得越來越復雜,雖然有些公司可能會選擇一個專門的供應商來解決這兩個問題,但其他公司正在將數據遷移到多個存儲和處理層,而這也為管道數據帶來更多即使經過充分測試但仍會損壞的潛在風險。
- 數據庫基礎教程(SQL Server平臺)
- 數據庫技術與應用教程(Access)
- 數據庫基礎與應用:Access 2010
- 文本數據挖掘:基于R語言
- Learning JavaScriptMVC
- Neural Network Programming with TensorFlow
- 數據中心數字孿生應用實踐
- 新基建:數據中心創新之路
- 智慧的云計算
- 活用數據:驅動業務的數據分析實戰
- 算力經濟:從超級計算到云計算
- Unity Game Development Blueprints
- Practical Convolutional Neural Networks
- Tableau商業分析從新手到高手(視頻版)
- SQL Server 數據庫教程(2008版)