官术网_书友最值得收藏!

2.5 存量數(shù)據(jù)改造——解決已有質量問題

數(shù)據(jù)標準體系構建好并實現(xiàn)落地后,接下來就是要進行存量數(shù)據(jù)改造——存量數(shù)據(jù)的清洗工作。數(shù)據(jù)清洗就是指對存量數(shù)據(jù)的質量改造過程,主要是解決存量數(shù)據(jù)的不一致、不完整、不合規(guī)以及冗余的問題。通過存量數(shù)據(jù)的改造徹底解決數(shù)據(jù)質量的歷史遺留問題,為未來數(shù)據(jù)新增時的查重奠定基礎。

數(shù)據(jù)清洗的原則及方法:

1)要從企業(yè)自身的存量數(shù)據(jù)入手,切忌直接依據(jù)行業(yè)內其他公司的標準數(shù)據(jù)進行數(shù)據(jù)清洗;

2)遵循數(shù)據(jù)治理項目建立的數(shù)據(jù)模型體系標準;

3)采用相關的數(shù)據(jù)清洗工具進行數(shù)據(jù)清洗工作,盡量不要手工處理,因為數(shù)據(jù)量大容易出錯;

4)合理分工,根據(jù)數(shù)據(jù)所屬關系遵循誰的數(shù)據(jù)誰清洗的原則,專業(yè)的人做專業(yè)的事;

5)理好優(yōu)先順序,先清洗著急使用的數(shù)據(jù),也可以什么時候用什么時候清洗,把數(shù)據(jù)清洗工作時間跨度適當拉長,減輕不必要的壓力。

數(shù)據(jù)清洗的結果是完善了數(shù)據(jù),建立了冗余數(shù)據(jù)的映射關系庫,然后可以根據(jù)冗余數(shù)據(jù)映射關系庫在業(yè)務系統(tǒng)中陸續(xù)停用問題數(shù)據(jù),當然也可以把完善后的數(shù)據(jù)更新到業(yè)務中去。

主站蜘蛛池模板: 登封市| 马关县| 玉环县| 盐池县| 临澧县| 宣城市| 喀喇| 封开县| 正蓝旗| 尼玛县| 班玛县| 景东| 浑源县| 萍乡市| 六安市| 历史| 德昌县| 连州市| 于都县| 苍山县| 梨树县| 肇源县| 乌兰浩特市| 绍兴市| 革吉县| 建湖县| 武邑县| 克什克腾旗| 三台县| 安庆市| 宜都市| 平南县| 彩票| 双城市| 贡觉县| 兴文县| 拉萨市| 凤冈县| 兴国县| 宁安市| 和平区|