2.7 行為管控——優化增量數據質量
數據治理項目試運行和驗收的同時,企業對于數據的治理工作就正式進入了對數據的日常運維階段,也是數據生命周期的核心階段。
純技術手段的數據質量驗證并不能完全滿足現階段企業對數據質量的要求。因此,需要通過行為管控的數據質量優化方式,解決更深層次數據質量問題(如錯別字、類別選擇錯誤等),為企業精細化管理以及精確化分析提供基礎。即:在技術手段驗證數據質量的基礎上對數據操作人員的行為進行管控,從而優化數據質量;通過大數據行為分析,檢測、探知、處理已生成的數據,進一步優化數據質量。
增量數據相對存量數據而言,二者以數據治理項目中數據治理平臺正式上線的時間節點來劃分。數據治理平臺上線前,企業已有的所有數據都是存量數據;平臺上線后新增的數據都是增量數據。另外,只有增量數據的質量需要再優化,存量數據只需要在數據治理項目中進行一次性清洗即可。
針對增量數據質量可以通過行為管控進行優化的階段有兩個,一是在數據采集/驗證(數據維護/審核)階段,二是在數據生成、分發階段,數據全生命周期如圖2-1所示。

圖2-1 數據全生命周期
通過行為管控的方式解決數據質量問題的原則和方法:
1)數據維護階段,依據相關業務崗位的人員錄入本業務崗位相關數據的原則,把整條數據信息拆分成多個(或組)屬性字段,通過將各專業屬性字段(或組)分別授權給相關業務崗位人員進行維護實現優化增量數據質量;
2)數據生成后,通過數據治理平臺的大數據行為分析技術,對數據質量進行分析、監測,探知已存在于業務系統中的數據質量問題,并對問題及時進行處理;
3)不斷優化基于機器學習的數據質量判斷模型,逐步提高數據質量問題的探知能力。