官术网_书友最值得收藏!

第2章
對(duì)可靠數(shù)據(jù)系統(tǒng)的構(gòu)建模塊進(jìn)行組裝

與Ryan Kearns共同撰寫(xiě)

對(duì)于任何數(shù)據(jù)從業(yè)者來(lái)說(shuō),解決生產(chǎn)過(guò)程中的數(shù)據(jù)質(zhì)量問(wèn)題都是一項(xiàng)關(guān)鍵技能,但只要有適當(dāng)?shù)南到y(tǒng)和流程,就基本可以防止數(shù)據(jù)宕機(jī)。

與軟件一樣,數(shù)據(jù)在管道的任何階段都可能會(huì)受到操作數(shù)量、編程甚至數(shù)據(jù)相關(guān)性的影響,也許只需一次模式更改或代碼推送,就會(huì)讓下游報(bào)告處于混亂狀態(tài)。

正如我們將在第8章討論的,解決數(shù)據(jù)質(zhì)量問(wèn)題并構(gòu)建更可靠的管道分為三個(gè)關(guān)鍵組件:流程、技術(shù)和人員。在本章中,我們將解決組件中的技術(shù)部分,將數(shù)據(jù)管道的不同部分映射在一起,并了解在每個(gè)步驟中測(cè)量、修復(fù)和防止數(shù)據(jù)宕機(jī)所需的內(nèi)容。

數(shù)據(jù)系統(tǒng)極其復(fù)雜,而數(shù)據(jù)管道中的各個(gè)階段都導(dǎo)致了這種混亂。隨著公司越來(lái)越多地投資于數(shù)據(jù)和分析,這種大規(guī)模構(gòu)建的壓力也為數(shù)據(jù)工程師帶來(lái)了巨大的壓力,甚至讓他們?cè)跀?shù)據(jù)進(jìn)入管道前就開(kāi)始為質(zhì)量問(wèn)題負(fù)責(zé)。

在本章中,我們將重點(diǎn)介紹各種來(lái)自數(shù)據(jù)目錄、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖中的,元數(shù)據(jù)驅(qū)動(dòng)的構(gòu)建模塊,以便在管道的每個(gè)階段都確保高質(zhì)量的數(shù)據(jù),并保證成功建立數(shù)據(jù)基礎(chǔ)設(shè)施。

主站蜘蛛池模板: 库尔勒市| 通许县| 阿克陶县| 芷江| 区。| 东莞市| 武冈市| 靖远县| 定边县| 杨浦区| 莲花县| 中山市| 昌都县| 宁波市| 花垣县| 定兴县| 江永县| 正宁县| 织金县| 即墨市| 金昌市| 通海县| 铁岭市| 海盐县| 昌邑市| 茶陵县| 江永县| 辰溪县| 五常市| 贵南县| 揭西县| 肃宁县| 清涧县| 维西| 贡嘎县| 海口市| 安远县| 策勒县| 思茅市| 望谟县| 伊金霍洛旗|