- 企業(yè)數(shù)據(jù)治理那些事
- 段效亮
- 441字
- 2020-06-11 18:40:28
2.5 存量數(shù)據(jù)改造——解決已有質量問題
數(shù)據(jù)標準體系構建好并實現(xiàn)落地后,接下來就是要進行存量數(shù)據(jù)改造——存量數(shù)據(jù)的清洗工作。數(shù)據(jù)清洗就是指對存量數(shù)據(jù)的質量改造過程,主要是解決存量數(shù)據(jù)的不一致、不完整、不合規(guī)以及冗余的問題。通過存量數(shù)據(jù)的改造徹底解決數(shù)據(jù)質量的歷史遺留問題,為未來數(shù)據(jù)新增時的查重奠定基礎。
數(shù)據(jù)清洗的原則及方法:
1)要從企業(yè)自身的存量數(shù)據(jù)入手,切忌直接依據(jù)行業(yè)內其他公司的標準數(shù)據(jù)進行數(shù)據(jù)清洗;
2)遵循數(shù)據(jù)治理項目建立的數(shù)據(jù)模型體系標準;
3)采用相關的數(shù)據(jù)清洗工具進行數(shù)據(jù)清洗工作,盡量不要手工處理,因為數(shù)據(jù)量大容易出錯;
4)合理分工,根據(jù)數(shù)據(jù)所屬關系遵循誰的數(shù)據(jù)誰清洗的原則,專業(yè)的人做專業(yè)的事;
5)理好優(yōu)先順序,先清洗著急使用的數(shù)據(jù),也可以什么時候用什么時候清洗,把數(shù)據(jù)清洗工作時間跨度適當拉長,減輕不必要的壓力。
數(shù)據(jù)清洗的結果是完善了數(shù)據(jù),建立了冗余數(shù)據(jù)的映射關系庫,然后可以根據(jù)冗余數(shù)據(jù)映射關系庫在業(yè)務系統(tǒng)中陸續(xù)停用問題數(shù)據(jù),當然也可以把完善后的數(shù)據(jù)更新到業(yè)務中去。