- 數據要素化時代的數據治理
- 上海市靜安區國際數據管理協會編
- 1167字
- 2024-11-14 15:42:05
1.2 DataOps的發展與特點
DataOps的概念最早由萊尼·利伯曼(Lenny Liebmann)于2014年提出,他指出DataOps是優化數據科學團隊和運營團隊之間協作的一些實踐的集合。隨后,業界開始對DataOps的概念進行研究和提煉。2015年,英國Tamr公司的安迪·帕爾默(Andy Palmer)提出了DataOps的4個關鍵構成:數據工程、數據集成、數據安全和數據質量。2017年,美國Nexla公司的賈拉·尤斯頓(Jarah Euston)把DataOps的核心定義為從數據到價值,這是首個把DataOps和業務價值關聯起來的定義。自2018年被高德納(Gartner)公司納入數據管理技術成熟度曲線以來,DataOps的熱度逐年上升。2021—2022年,Forrester公司、國際數據公司(International Data Corporation,IDC)、IBM公司陸續發布各自在DataOps方向的研究和探索。自2022年以來,DataOps處在一個從萌芽期到爆發期的關鍵過渡階段,預示著未來2~5年DataOps將得到廣泛的實踐應用。2022年,中國信通院將DataOps列為當年大數據十大關鍵詞之一,同時發布了DataOps成熟度模型的相關標準,可見國內業界對DataOps的關注也越來越多。
綜合各家觀點,可用如下幾個關鍵詞來概括DataOps的概念:敏捷、協作、自動和業務價值的呈現。那么DataOps究竟能給企業帶來什么樣的價值呢?主要有以下4點。
(1)能夠提高數據生產效率。速度是DataOps的主要驅動力,數據管道的優化使得DataOps能夠快速實現一個業務從需求到開發成果的輸出,整個流程更加敏捷,并且具備快速迭代的能力,從而及時響應需求的變化。
(2)提高質量和可靠性。DataOps通過定義明確的管道流程來保證研發的規范性,并通過自動化測試和持續集成/持續交付流程來確保交付質量,還通過落標[1]檢查和質量校驗來保證數據的標準化和準確性。
[1]落標,即落實標準。
(3)自動化和標準化。DataOps通過自動化和標準化的方式,減少了手動干預和重復工作,降低了IT運營和維護的成本。
(4)打破部門之間的界限。DataOps鼓勵交流與協作,有利于企業建設數據文化,提高整個企業的生產力,讓所有人都愿意通過數據來做分析。
DataOps定義了數據管理的新模式,讓數據管道、數據處理流程、數據技術和團隊能有效結合起來。圖1-3所示為韋恩·埃克森(Wayne Eckerson)給出的一個DataOps框架:中間的數據管道表示從數據來源到數據結果輸出的過程,包含數據采集、數據工程和數據分析3個環節;下半部分列出用到的相關技術,包括數據捕獲、ETL(Extract-Transform-Load,提取-轉換-加載)、數據準備、數據血緣、數據目錄、數據治理、數據分析等;上半部分是整個數據管道的處理流程,包含持續集成、持續部署、編排工作流和調度、持續測試等。總的來講,DataOps將DevOps的敏捷開發和持續集成應用到了數據領域,以優化和改進數據管理者和數據消費者的協作,實現持續交付的數據生產線。
當前整個數據棧的生態蓬勃發展,有很多開源的組件,且不乏行業領先的獨角獸企業。然而從數據的集成、加工到調度編排,再到治理和分析,眾多技術棧的出現更需要使用DataOps的方法把這些產品和組件集成在一起,以便做好組件的融合和流程編排,讓企業的數據開發和運營更便捷、更簡單,因此未來幾年DataOps的發展將迎來爆發期。

圖1-3 DataOps框架
- LibGDX Game Development Essentials
- Unity 5.x Game AI Programming Cookbook
- 從零開始學Hadoop大數據分析(視頻教學版)
- Modern Programming: Object Oriented Programming and Best Practices
- PySpark大數據分析與應用
- Mockito Cookbook
- Python數據分析:基于Plotly的動態可視化繪圖
- Python金融實戰
- Power BI智能數據分析與可視化從入門到精通
- MySQL DBA修煉之道
- Visual FoxPro數據庫技術基礎
- Access數據庫開發從入門到精通
- 離線和實時大數據開發實戰
- Kubernetes快速進階與實戰
- 領域驅動設計精粹