- 數(shù)據(jù)質(zhì)量管理:數(shù)據(jù)可靠性與數(shù)據(jù)質(zhì)量問(wèn)題解決之道
- (美)巴爾·摩西等
- 440字
- 2024-08-19 16:20:00
第2章
對(duì)可靠數(shù)據(jù)系統(tǒng)的構(gòu)建模塊進(jìn)行組裝
與Ryan Kearns共同撰寫(xiě)
對(duì)于任何數(shù)據(jù)從業(yè)者來(lái)說(shuō),解決生產(chǎn)過(guò)程中的數(shù)據(jù)質(zhì)量問(wèn)題都是一項(xiàng)關(guān)鍵技能,但只要有適當(dāng)?shù)南到y(tǒng)和流程,就基本可以防止數(shù)據(jù)宕機(jī)。
與軟件一樣,數(shù)據(jù)在管道的任何階段都可能會(huì)受到操作數(shù)量、編程甚至數(shù)據(jù)相關(guān)性的影響,也許只需一次模式更改或代碼推送,就會(huì)讓下游報(bào)告處于混亂狀態(tài)。
正如我們將在第8章討論的,解決數(shù)據(jù)質(zhì)量問(wèn)題并構(gòu)建更可靠的管道分為三個(gè)關(guān)鍵組件:流程、技術(shù)和人員。在本章中,我們將解決組件中的技術(shù)部分,將數(shù)據(jù)管道的不同部分映射在一起,并了解在每個(gè)步驟中測(cè)量、修復(fù)和防止數(shù)據(jù)宕機(jī)所需的內(nèi)容。
數(shù)據(jù)系統(tǒng)極其復(fù)雜,而數(shù)據(jù)管道中的各個(gè)階段都導(dǎo)致了這種混亂。隨著公司越來(lái)越多地投資于數(shù)據(jù)和分析,這種大規(guī)模構(gòu)建的壓力也為數(shù)據(jù)工程師帶來(lái)了巨大的壓力,甚至讓他們?cè)跀?shù)據(jù)進(jìn)入管道前就開(kāi)始為質(zhì)量問(wèn)題負(fù)責(zé)。
在本章中,我們將重點(diǎn)介紹各種來(lái)自數(shù)據(jù)目錄、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖中的,元數(shù)據(jù)驅(qū)動(dòng)的構(gòu)建模塊,以便在管道的每個(gè)階段都確保高質(zhì)量的數(shù)據(jù),并保證成功建立數(shù)據(jù)基礎(chǔ)設(shè)施。
- PyTorch深度學(xué)習(xí)實(shí)戰(zhàn):從新手小白到數(shù)據(jù)科學(xué)家
- 程序員修煉之道:從小工到專(zhuān)家
- 數(shù)據(jù)挖掘原理與實(shí)踐
- Hadoop與大數(shù)據(jù)挖掘(第2版)
- SQL應(yīng)用及誤區(qū)分析
- 科研統(tǒng)計(jì)思維與方法:SPSS實(shí)戰(zhàn)
- Google Cloud Platform for Developers
- 云計(jì)算寶典:技術(shù)與實(shí)踐
- 數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)技術(shù)
- 區(qū)塊鏈應(yīng)用開(kāi)發(fā)指南:業(yè)務(wù)場(chǎng)景剖析與實(shí)戰(zhàn)
- GameMaker Game Programming with GML
- Managing Software Requirements the Agile Way
- 一本書(shū)講透數(shù)據(jù)治理:戰(zhàn)略、方法、工具與實(shí)踐
- Applying Math with Python
- 產(chǎn)品經(jīng)理數(shù)據(jù)修煉30問(wèn)