- 數據質量管理:數據可靠性與數據質量問題解決之道
- (美)巴爾·摩西等
- 570字
- 2024-08-19 16:19:58
1.1 什么是數據質量
數據質量作為一個概念并不新奇——“數據質量”自從人類開始收集數據以來就已經存在了!
然而,在過去的幾十年里,數據質量的定義已經開始具體化為度量數據可靠性、完整性和準確性的功能,因為它與報告時的狀態相關。正如人們所說,你無法管理未經度量的內容,而高數據質量是所有強大分析程序的第一步。數據質量也是一種了解數據是否符合業務需求的有效方法。
在本書中,我們將數據質量定義為數據在其生命周期中任何階段的健康狀況。數據質量可能在數據管道的任何階段受到影響,無論是接收數據前、生產過程中,還是在分析過程中。
在我們看來,數據質量常常是一個糟糕的代表,數據團隊知道他們需要優先考慮它,但它并沒有像“機器學習”“數據科學”甚至“分析”那樣一蹴而就,許多團隊沒有足夠的帶寬或資源來找人全職管理它。相反,資源緊張的公司依靠數據分析師和工程師自己來管理數據,從而將他們從更有趣或更具創新性的項目中抽離出來。
但是,如果你不能信任數據及其所支持的數據產品,那么數據用戶要如何相信你的團隊能夠提供價值呢?“沒數據總比壞數據好”這句話是該領域專業人士經常拋出的一句話,雖然它確實有道理,但這往往不是現實。
鑒于大多數公司的增長速度和數據消耗,數據質量問題(或數據宕機)實際上已不可避免。但通過了解我們如何定義數據質量,你可以更容易地評估它并防止它在下游引起問題。