- 數據要素化時代的數據治理
- 上海市靜安區國際數據管理協會編
- 2112字
- 2024-11-14 15:42:06
1.3 DataOps的實踐探索
IDC出具的相關統計報告顯示,當前已有10%的企業完全實現了DataOps,而80%以上的企業表示需要實現DataOps,這說明DataOps有著廣泛的認同和市場。那么實現DataOps有哪些條件呢?
● 戰略:DataOps為數字化轉型奠定基礎,它是一個經過深思熟慮的數據戰略的一部分,組織要明確當前的戰略目標和戰略范圍。
● 文化:DataOps的核心是協作和信任的文化。所有利益相關者都必須共同努力,并對整個過程負責。在所有階段了解業務需求至關重要。
● 流程:DataOps需要定義明確的流程、角色、準則和指標,以加強DataOps的原則。
● 人員:DataOps需要明確與數據生命周期一致的人力資源,包括內部客戶和利益相關者。
● 技術:DataOps需要工具和基礎架構來支持自動化、測試和編制,以及所有利益相關者之間的協作和溝通。
上述條件簡而言之就是,要實現DataOps,首先要有清晰的戰略目標和戰略范圍,戰略目標不一定長遠宏大,但一定要明確,要清楚解決什么樣的問題;其次需要有協作和信任的文化,數據的開發、管理不只是IT部門的事情,業務部門也要參與進來;最后需要定義明確的DataOps的成員、角色、準則和指標,包括自動化的能力等,配備相應的專業人員并提供技術組件工具的支撐,這樣才能夠保證企業更好地實現DataOps落地。
在具體實踐方面,我們認為DataOps的落地有4個關鍵點:首先是實現敏捷的數據管道,把傳統的、復雜的、割裂的數據工程,轉變為敏捷的、一站式的自動化數據管道,通過流程化自動約束DataOps的規范化,并支持多類角色的協作;其次是要具備持續集成/持續發布(CI/CD)的能力,由于數據工程包含多個環節且由多人開發完成,因此數據工程的驗證和投產過程十分重要,可以通過版本控制對代碼和數據進行管理,通過自動測試驗證任務和數據的準確性,通過CI/CD能力提高數據工程從開發到投產的質量和效率;接下來是安全可信的數據資產,也就是說,要保障數據消費者使用的數據是準確合規的,從而讓數據管理者能夠放心授權數據給數據消費者使用;最后是自助的數據分析和探索能力,業務分析師和數據科學家等可能有一些創新性的研究或碎片化的需求,他們可以在安全授權的前提下,利用簡單快速的數據訪問和分析能力來探索數據,實現數據民主化。
下面具體介紹實現DataOps落地的每一個關鍵點。
(1)敏捷的數據管道。敏捷的數據管道強調DataOps過程的自動化和協作化,包括沙箱創建、資源申請、數據發現、數據準備/集成、模型設計、數據加工、任務編排、版本管理、任務測試、部署上線等能力,還涉及多種角色的協作過程,旨在高效地對數據工程、數據技術和數據流程進行結合及流程自動化。圖1-4展示了一個敏捷的數據管道。
(2)持續集成/持續發布的能力。傳統的數據開發通常會在文本或工具中編寫腳本,并將其提交到測試環境進行驗證。如果驗證出現問題,則需要修改并重新測試腳本。因此傳統的數據開發存在以下3個問題。
● 大型數據工程需要多人協作,當團隊中有很多人參與編寫和修改代碼時可能會出現錯誤,缺少版本控制管理將導致無法找到以前的版本。
● 當切換環境時,需要修改很多環境參數,比如數據集成和加工時的測試或生產環境參數,這很容易造成漏改或錯改。
● 傳統模式下的整個投產過程缺乏管理,數據審計時發現的問題很難追溯,并且由于數據業務需求變化頻繁,即使一次成功的投產,也可能因為后續變更而需要再次進行投產。

圖1-4 敏捷的數據管道
此時,持續集成/持續發布的能力將發揮作用。它能夠實現環境的統一管理、自動化的編排、測試和上線流程的管理,并提供審計功能。持續集成/持續發布的能力是DataOps的核心。圖1-5展示了一個基于DataOps平臺進行持續集成/持續發布的示例。

圖1-5 數據的持續集成/持續發布
(3)安全可信的數據資產。對于數據資產,數據消費者需要“能找到”“看得懂”“放心用”。數據消費者在進行數據分析前,首先需要找到數據。這就需要一個可搜索且易于理解的數據目錄工具,以便找到企業中存在的數據資產,并通過詳盡的元數據信息來理解數據,包括業務術語、數據結構、數據分布、數據血緣、數據質量、數據安全和數據合規等信息,從而對數據有清晰的理解和充分的信任。同時,需要確保數據的訪問權限和審計能力,以保證數據能夠被安全使用。
(4)自助的數據分析和探索能力。一些創新性的研究或碎片化的需求并不需要完整的數據投產就能夠讓業務分析人員、數據科學家進行數據的探索和數據分析,不需要依賴數據工程師,從而真正地實現數據民主化。因此,我們需要提供自助的數據分析和探索能力,讓用戶可以自主發現數據,按需申請試用,并編寫腳本以分析和驗證數據模型的效果。這樣就可以滿足用戶靈活多樣的數據分析需求。具體而言,自助的數據分析和探索能力包括如下內容。
● 自助發現:數據消費者根據自己的用數需求,自助地從企業數據資產目錄中查找數據。
● 按需訪問:數據消費者獲得授權后,能夠輕松便捷地訪問數據。
● 自助使用:針對數據分析需求,數據消費者可以構建個人數據沙箱,在個人數據沙箱中進行數據的分析和探索,并將分析結果導出和可視化。
總的來說,DataOps的能力覆蓋了整個數據研發和治理的過程。如圖1-6所示,

圖1-6 DataOps靈活貫穿整個數據研發和治理的過程
DataOps 從數據的需求階段開始,貫穿到編碼、測試、上線以及價值運營階段。通過統一的元數據,它可以貫穿所有流程,并且這些流程在實踐中可以組合和拆分,以滿足企業在DataOps方面的需求。
- 算法競賽入門經典:習題與解答
- Hands-On Machine Learning with Microsoft Excel 2019
- MongoDB管理與開發精要
- 大數據可視化
- 大數據Hadoop 3.X分布式處理實戰
- ZeroMQ
- Python數據分析與挖掘實戰(第3版)
- 探索新型智庫發展之路:藍迪國際智庫報告·2015(下冊)
- Hands-On System Programming with C++
- Oracle 11g數據庫管理與開發基礎教程
- 推薦系統全鏈路設計:原理解讀與業務實踐
- Python金融數據挖掘與分析實戰
- 數字孿生
- Unity 4.x Game AI Programming
- MySQL 8.0從入門到實戰