官术网_书友最值得收藏!

5.2 最小化數(shù)據(jù)可用性耗時

數(shù)據(jù)可用性耗時主要花在本節(jié)討論的4個活動上。數(shù)據(jù)遷移服務(wù)的目標(biāo)是盡量減少這些步驟花費(fèi)的時間。

5.2.1 數(shù)據(jù)接入配置和變更管理

數(shù)據(jù)必須從源數(shù)據(jù)存儲中讀取并寫入目標(biāo)數(shù)據(jù)存儲中。我們需要一個特定技術(shù)的適配器來對數(shù)據(jù)存儲進(jìn)行讀寫。管理數(shù)據(jù)存儲的源團(tuán)隊需要通過配置來開放數(shù)據(jù)讀取功能。通常,必須解決與源數(shù)據(jù)存儲的性能影響相關(guān)的問題。這個過程在JIRA ticket(一個項目管理平臺)中進(jìn)行跟蹤,可能需要幾天時間。

經(jīng)過初始配置之后,源數(shù)據(jù)存儲和目標(biāo)數(shù)據(jù)存儲可能會發(fā)生模式和配置的更改。這些更改可能會破壞下游ETL和機(jī)器學(xué)習(xí)模型對特定數(shù)據(jù)屬性的依賴,而這些數(shù)據(jù)屬性可能已經(jīng)被棄用,或者更改為表示不同的意義。這些更改需要主動協(xié)調(diào)。除非數(shù)據(jù)遷移是一次性的,否則需要進(jìn)行持續(xù)的變更管理,以確保源數(shù)據(jù)在目標(biāo)中正確可用。

5.2.2 合規(guī)

在跨系統(tǒng)遷移數(shù)據(jù)之前,必須先驗證數(shù)據(jù)是否合規(guī)。例如,如果源數(shù)據(jù)存儲受PCI(https://oreil.ly/j8aBX)等監(jiān)管合規(guī)法律的約束,那么數(shù)據(jù)遷移必須以明確的業(yè)務(wù)理由記錄下來。帶有PII屬性的數(shù)據(jù)必須在傳輸過程中和在目標(biāo)數(shù)據(jù)存儲上進(jìn)行加密。新出現(xiàn)的數(shù)據(jù)權(quán)利法律,如《通用數(shù)據(jù)保護(hù)條例》(GDPR)(https://oreil.ly/K7Yqz)和《加州消費(fèi)者隱私法》(CCPA)(https://oreil.ly/eIBY6),進(jìn)一步限制了數(shù)據(jù)遷移。根據(jù)適用的法規(guī),合規(guī)性驗證可能會花費(fèi)大量時間。

5.2.3 數(shù)據(jù)質(zhì)量驗證

數(shù)據(jù)遷移需要確保源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的一致性。在實際部署中,質(zhì)量問題可能由于多種原因?qū)е拢缭磾?shù)據(jù)錯誤、適配器故障、聚合問題等。為了確保數(shù)據(jù)質(zhì)量問題不影響業(yè)務(wù)指標(biāo)和機(jī)器學(xué)習(xí)模型的正確性,必須在遷移數(shù)據(jù)期間監(jiān)控數(shù)據(jù)一致性。

在數(shù)據(jù)遷移過程中,目標(biāo)數(shù)據(jù)可能是源數(shù)據(jù)經(jīng)過過濾、聚合或轉(zhuǎn)換后得到的,因此與源數(shù)據(jù)并不完全一致。例如,如果應(yīng)用程序數(shù)據(jù)跨多個集群分片,則可能需要在目標(biāo)數(shù)據(jù)上使用一個聚合的具體化視圖。在部署到生產(chǎn)環(huán)境中之前,需要對轉(zhuǎn)換進(jìn)行定義和驗證。

雖然目前有多種商業(yè)和開源的解決方案,但在實現(xiàn)數(shù)據(jù)遷移服務(wù)方面還沒有通用的解決方案。本章的其余部分將介紹建立數(shù)據(jù)遷移服務(wù)的需求和設(shè)計模式。

主站蜘蛛池模板: 福贡县| 饶平县| 简阳市| 定日县| 无锡市| 榆中县| 广德县| 阿尔山市| 育儿| 苍梧县| 万年县| 玉田县| 金秀| 建德市| 鸡泽县| 申扎县| 普格县| 阳曲县| 沛县| 元江| 望都县| 余干县| 泸水县| 兖州市| 肥乡县| 乳山市| 白水县| 剑河县| 神木县| 湘潭县| 祁阳县| 东乡县| 灵山县| 建昌县| 综艺| 古丈县| 嘉定区| 和林格尔县| 通化县| 广昌县| 荃湾区|