- 數(shù)據(jù)自助服務(wù)實踐指南:數(shù)據(jù)開放與洞察提效
- (美)桑迪普·烏坦坎達(dá)尼
- 827字
- 2022-05-20 19:18:51
5.2 最小化數(shù)據(jù)可用性耗時
數(shù)據(jù)可用性耗時主要花在本節(jié)討論的4個活動上。數(shù)據(jù)遷移服務(wù)的目標(biāo)是盡量減少這些步驟花費(fèi)的時間。
5.2.1 數(shù)據(jù)接入配置和變更管理
數(shù)據(jù)必須從源數(shù)據(jù)存儲中讀取并寫入目標(biāo)數(shù)據(jù)存儲中。我們需要一個特定技術(shù)的適配器來對數(shù)據(jù)存儲進(jìn)行讀寫。管理數(shù)據(jù)存儲的源團(tuán)隊需要通過配置來開放數(shù)據(jù)讀取功能。通常,必須解決與源數(shù)據(jù)存儲的性能影響相關(guān)的問題。這個過程在JIRA ticket(一個項目管理平臺)中進(jìn)行跟蹤,可能需要幾天時間。
經(jīng)過初始配置之后,源數(shù)據(jù)存儲和目標(biāo)數(shù)據(jù)存儲可能會發(fā)生模式和配置的更改。這些更改可能會破壞下游ETL和機(jī)器學(xué)習(xí)模型對特定數(shù)據(jù)屬性的依賴,而這些數(shù)據(jù)屬性可能已經(jīng)被棄用,或者更改為表示不同的意義。這些更改需要主動協(xié)調(diào)。除非數(shù)據(jù)遷移是一次性的,否則需要進(jìn)行持續(xù)的變更管理,以確保源數(shù)據(jù)在目標(biāo)中正確可用。
5.2.2 合規(guī)
在跨系統(tǒng)遷移數(shù)據(jù)之前,必須先驗證數(shù)據(jù)是否合規(guī)。例如,如果源數(shù)據(jù)存儲受PCI(https://oreil.ly/j8aBX)等監(jiān)管合規(guī)法律的約束,那么數(shù)據(jù)遷移必須以明確的業(yè)務(wù)理由記錄下來。帶有PII屬性的數(shù)據(jù)必須在傳輸過程中和在目標(biāo)數(shù)據(jù)存儲上進(jìn)行加密。新出現(xiàn)的數(shù)據(jù)權(quán)利法律,如《通用數(shù)據(jù)保護(hù)條例》(GDPR)(https://oreil.ly/K7Yqz)和《加州消費(fèi)者隱私法》(CCPA)(https://oreil.ly/eIBY6),進(jìn)一步限制了數(shù)據(jù)遷移。根據(jù)適用的法規(guī),合規(guī)性驗證可能會花費(fèi)大量時間。
5.2.3 數(shù)據(jù)質(zhì)量驗證
數(shù)據(jù)遷移需要確保源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的一致性。在實際部署中,質(zhì)量問題可能由于多種原因?qū)е拢缭磾?shù)據(jù)錯誤、適配器故障、聚合問題等。為了確保數(shù)據(jù)質(zhì)量問題不影響業(yè)務(wù)指標(biāo)和機(jī)器學(xué)習(xí)模型的正確性,必須在遷移數(shù)據(jù)期間監(jiān)控數(shù)據(jù)一致性。
在數(shù)據(jù)遷移過程中,目標(biāo)數(shù)據(jù)可能是源數(shù)據(jù)經(jīng)過過濾、聚合或轉(zhuǎn)換后得到的,因此與源數(shù)據(jù)并不完全一致。例如,如果應(yīng)用程序數(shù)據(jù)跨多個集群分片,則可能需要在目標(biāo)數(shù)據(jù)上使用一個聚合的具體化視圖。在部署到生產(chǎn)環(huán)境中之前,需要對轉(zhuǎn)換進(jìn)行定義和驗證。
雖然目前有多種商業(yè)和開源的解決方案,但在實現(xiàn)數(shù)據(jù)遷移服務(wù)方面還沒有通用的解決方案。本章的其余部分將介紹建立數(shù)據(jù)遷移服務(wù)的需求和設(shè)計模式。
- Redis使用手冊
- 程序員修煉之道:從小工到專家
- 使用GitOps實現(xiàn)Kubernetes的持續(xù)部署:模式、流程及工具
- Visual Studio 2015 Cookbook(Second Edition)
- 大數(shù)據(jù)可視化
- 工業(yè)大數(shù)據(jù)分析算法實戰(zhàn)
- 大數(shù)據(jù)時代下的智能轉(zhuǎn)型進(jìn)程精選(套裝共10冊)
- 城市計算
- Augmented Reality using Appcelerator Titanium Starter
- 數(shù)據(jù)分析師養(yǎng)成寶典
- Visual Studio 2013 and .NET 4.5 Expert Cookbook
- Oracle高性能SQL引擎剖析:SQL優(yōu)化與調(diào)優(yōu)機(jī)制詳解
- 標(biāo)簽類目體系:面向業(yè)務(wù)的數(shù)據(jù)資產(chǎn)設(shè)計方法論
- ECharts數(shù)據(jù)可視化:入門、實戰(zhàn)與進(jìn)階
- 碼上行動:利用Python與ChatGPT高效搞定Excel數(shù)據(jù)分析