官术网_书友最值得收藏!

1.1 什么是數據質量

數據質量作為一個概念并不新奇——“數據質量”自從人類開始收集數據以來就已經存在了!

然而,在過去的幾十年里,數據質量的定義已經開始具體化為度量數據可靠性、完整性和準確性的功能,因為它與報告時的狀態相關。正如人們所說,你無法管理未經度量的內容,而高數據質量是所有強大分析程序的第一步。數據質量也是一種了解數據是否符合業務需求的有效方法。

在本書中,我們將數據質量定義為數據在其生命周期中任何階段的健康狀況。數據質量可能在數據管道的任何階段受到影響,無論是接收數據前、生產過程中,還是在分析過程中。

在我們看來,數據質量常常是一個糟糕的代表,數據團隊知道他們需要優先考慮它,但它并沒有像“機器學習”“數據科學”甚至“分析”那樣一蹴而就,許多團隊沒有足夠的帶寬或資源來找人全職管理它。相反,資源緊張的公司依靠數據分析師和工程師自己來管理數據,從而將他們從更有趣或更具創新性的項目中抽離出來。

但是,如果你不能信任數據及其所支持的數據產品,那么數據用戶要如何相信你的團隊能夠提供價值呢?“沒數據總比壞數據好”這句話是該領域專業人士經常拋出的一句話,雖然它確實有道理,但這往往不是現實。

鑒于大多數公司的增長速度和數據消耗,數據質量問題(或數據宕機)實際上已不可避免。但通過了解我們如何定義數據質量,你可以更容易地評估它并防止它在下游引起問題。

主站蜘蛛池模板: 灵璧县| 蕉岭县| 柘荣县| 惠州市| 西昌市| 杂多县| 中阳县| 眉山市| 浏阳市| 赫章县| 玛纳斯县| 武乡县| 丽水市| 湘潭县| 奇台县| 鄯善县| 安新县| 延吉市| 保定市| 化德县| 齐齐哈尔市| 景德镇市| 宝丰县| 施甸县| 汝南县| 南陵县| 鞍山市| 自贡市| 海南省| 邢台市| 上饶市| 萨迦县| 香港 | 九江县| 固安县| 昌图县| 岱山县| 巴林左旗| 泰宁县| 调兵山市| 山西省|