- 云原生數據中臺:架構、方法論與實踐
- 彭鋒 宋文欣 孫浩峰
- 1130字
- 2021-04-30 12:38:52
6.4 數據規范
數據規范是指進入數據中臺的數據(輸入)和數據中臺提供的能力(產出)都必須符合的規范。很多大數據平臺建設因為缺乏規范而產生了數據孤島、應用孤島和數據開發困難的問題。OneID、OneModel是解決數據規范的一種思路。例如,OneID要求對于一個業務實體在所有業務系統中使用同樣的全局ID,OneModel的一個核心要求是派生指標名稱由原子指標、周期、統計粒度、業務限定等維度來確定。
·數據規范的目的主要是可以對進入體系的數據和輸出的數據能力進行通用管理,而不需要對每個數據源或分析程序都進行單獨處理。除了常見的OneID和OneModel,數據規范還有很多,比如下面這些規范。
·數據存儲的格式,例如Hadoop文本必須使用LZO壓縮,寬表必須使用Parquet格式存儲。
·數據庫/表的命名規則,例如數據倉庫中不同層次的表必須以其對應層次為前綴(ODS、DWD、DWS等)。
·表/字段元數據規則,例如表/字段必須有中文注釋,統計指標字段的計算方式必須在注釋中有介紹或鏈接等。
·數據隱私規則,所有涉及隱私數據的數據表和數據字段都必須在元數據或說明中標記相應的隱私類型,如privacy_user_address,這樣在排查隱私數據和進行脫敏檢查時會很方便。
·數據服務的命名規則和訪問規則,例如,數據服務函數名稱必須以其數據域加分析主題為前綴,數據服務函數必須在注冊Session后使用,以便于統計。
·數據集的訪問行為規范:是允許開放命令行訪問,還是必須通過系統工具使用,使用前必須通過什么授權。
·數據表的默認字段要求,例如,是否在數據倉庫的匯總表中加入created_at(創建時間)、updated_at(修改時間)、job_id(任務ID)這樣的字段,以便于變更數據處理及任務管理。
數據規范與傳統的數據標準并不是一個概念。很多行業數據標準描述了具體業務數據必須符合的業務規則,例如,2020年5月中國銀保監會下發的《中國銀保監會辦公廳關于開展監管數據質量專項數據治理工作的通知》中,要求“監管數據包括:非現場監管(1104)、客戶風險、監管數據標準化(EAST)、保險統計信息、保險償付能力、保險資金運用等系統采集的數據核心監管指標。數據質量主要包括數據真實性、準確性、完整性”。而我們這里所說的數據規范更多的是數據中臺體系本身的運營對數據和數據應用的要求,與具體業務關聯不大。例如,之所以提出上面例子中的默認字段要求,是因為我們在工作中發現,如果一個匯總記錄不加上created_at或updated_at字段,在后續使用和管理中就會丟失其變更歷史,在使用和排錯時將會遇到非常大的困難。
也許數據規范中最重要的是OneID和OneModel,而在建設數據中臺的過程中,我們會發現,其他數據規范對于數據中臺的順利運營也非常重要。我們可以從一些基礎數據規范出發,逐步完善,最終形成適合企業具體數據形式和IT架構的數據規范,指導數據中臺的運營。更重要的是,要通過工具來實現這些數據規范,而不是靠一個文檔,更不能靠IT或數據工程師的口口相傳。
- 數據存儲架構與技術
- 數據分析實戰:基于EXCEL和SPSS系列工具的實踐
- 分布式數據庫系統:大數據時代新型數據庫技術(第3版)
- Python廣告數據挖掘與分析實戰
- Hadoop與大數據挖掘(第2版)
- Neural Network Programming with TensorFlow
- 數據挖掘原理與SPSS Clementine應用寶典
- SQL優化最佳實踐:構建高效率Oracle數據庫的方法與技巧
- 白話大數據與機器學習
- 網站數據庫技術
- Construct 2 Game Development by Example
- 二進制分析實戰
- 云工作時代:科技進化必將帶來的新工作方式
- Practical Convolutional Neural Networks
- Access 2010數據庫應用技術教程(第二版)