舉報

會員
數據質量管理:數據可靠性與數據質量問題解決之道
最新章節:
封底
本書是一本關于如何清洗、整理和理解數據的手冊,還介紹了圍繞構建更可靠的數據系統的最佳實踐、技術和流程,并在此過程中培養團隊和利益相關方對數據的信任。本書首先引入“數據宕機”的概念,然后介紹如何跨多個關鍵數據管道技術構建更具彈性的數據系統。還介紹了數據可靠性工作流中的主動異常檢測與監測,并設置SLA、SLI和SLO,以及構建由新鮮度、容量、分布、模式和沿襲這5個關鍵支柱組成的優化數據質量的數據平臺。之后深入探討在生產環境中實際應對和解決數據質量問題所需的步驟,包括數據事件管理、根因分析、事后分析等。接著討論數據團隊在大規模宣傳和普及數據質量時必須跨越的一些文化和組織障礙,并分享了幾個真實案例研究和與數據工程領域領軍人物的對話。
最新章節
書友吧品牌:機械工業出版社
譯者:李晗玥等
上架時間:2024-08-19 16:01:56
出版社:機械工業出版社
本書數字版權由機械工業出版社提供,并由其授權上海閱文信息技術有限公司制作發行
- 封底 更新時間:2024-08-19 16:21:20
- 推薦閱讀
- 封面介紹
- 作者介紹
- 10.3 何去何從
- 10.2.4 更多的分布式環境與數據領域的興起
- 10.2.3 自動化的興起
- 10.2.2 數據團隊中的新角色
- 10.2.1 數據倉庫和數據湖將融為一體
- 10.2 對數據質量和數據可靠性未來的預測
- 10.1 要積極主動,而不是消極被動
- 第10章 開創可靠數據系統的未來
- 9.8 總結
- 9.7.8 數據質量源于信任
- 9.7.7 數據是客戶價值主張的關鍵部分
- 9.7.6 你的公司正在轉向自助式服務分析模型
- 9.7.5 你的團隊擁有比一年前更多的數據消費者
- 9.7.4 你的團隊至少花費了30%的時間來解決數據質量問題
- 9.7.3 你的數據團隊正在擴充
- 9.7.2 數據棧隨著更多的數據源、更多的表和更高的復雜性而擴展
- 9.7.1 在最近遷移到云端
- 9.7 決定何時開始處理公司的數據質量問題
- 9.6.3 從傳統的數據目錄過渡到現代的數據發現
- 9.6.2 數據目錄可能淹沒在數據湖甚至數據網格中
- 9.6.1 數據倉庫和數據湖的考量
- 9.6 通過數據發現釋放元數據的價值
- 9.5 讓元數據為業務服務
- 9.4.7 五年數據演變的五個關鍵思考
- 9.4.6 構建數據網格
- 9.4.5 開始數據驅動
- 9.4.4 開始以數據為導向
- 9.4.3 2018年:專業化和集中化
- 9.4.2 追求績效營銷
- 9.4.1 最初的數據需求
- 9.4 案例分析:Kolibri Games的數據棧之旅
- 9.3.7 數據網格是否會引起數據工程師和數據分析師之間的摩擦
- 9.3.6 團隊中的某個人會“擁有”數據網格嗎
- 9.3.5 數據網格適用于所有的數據團隊嗎
- 9.3.4 自助式數據平臺與分散式數據網格是一回事嗎
- 9.3.3 每個數據產品團隊是否管理自己獨立的數據存儲
- 9.3.2 數據網格是數據虛擬化的另一種表達嗎
- 9.3.1 你可以從單一解決方案構建數據網格嗎
- 9.3 與Zhamak Dehghani的對話:數據質量在數據網格中的作用
- 9.2.2 計算你的數據網格分數
- 9.2.1 選不選網格
- 9.2 為什么要實施數據網格
- 9.1.3 互操作性與通信標準化
- 9.1.2 自助式服務功能
- 9.1.1 面向領域的數據所有者和數據管道
- 9.1 為更高的數據質量構建數據網格
- 第9章 現實世界中的數據質量:對話和案例分析
- 8.13 總結
- 8.12.5 創建溝通計劃
- 8.12.4 自動化數據沿襲與數據治理工具
- 8.12.3 帶頭實施數據治理計劃
- 8.12.2 設定數據質量的KPI
- 8.12.1 讓領導層對數據質量最終負責
- 8.12 構建數據質量策略
- 8.11.2 數據目錄之外:實施數據治理
- 8.11.1 優先考慮數據目錄
- 8.11 優先考慮數據治理和合規性
- 8.10 提高數據素養
- 8.9.4 在擴張數據團隊時需要考慮的因素
- 8.9.3 重組、再集中化并重新聚焦于數據信任
- 8.9.2 以分散式數據運營支持超級增長
- 8.9.1 起初:一個艱難滿足數據需求的小團隊
- 8.9 案例分析:Toast尋找適合其數據團隊結構的過程
- 8.8 實施數據認證流程的七個步驟
- 8.7 對數據進行認證
- 8.6 平衡數據可訪問性與數據信任
- 8.5 為數據質量創建責任制
- 8.4.8 誰來負責數據可靠性
- 8.4.7 數據產品經理
- 8.4.6 數據工程師
- 8.4.5 數據治理主管
- 8.4.4 數據科學家
- 8.4.3 分析工程師
- 8.4.2 商業智能分析師
- 8.4.1 首席數據官
- 8.4 分配數據質量所有權
- 8.3.5 了解何時構建、何時購買
- 8.3.4 為數據及其評估標準設定基準指標
- 8.3.3 優先考慮長期增長和可持續性,而非短期收益
- 8.3.2 尋求適合的利益相關方的反饋與認可
- 8.3.1 確保產品目標與業務目標保持一致
- 8.3 在數據平臺中建立信任
- 8.2.3 采用“數據即產品”的方法
- 8.2.2 Uber案例分析:數據產品經理的崛起
- 8.2.1 Convoy案例分析:數據即服務或輸出
- 8.2 將數據視為產品的經驗
- 8.1 將“數據”視為產品
- 第8章 推廣和普及數據質量
- 7.3 總結
- 7.2.4 為實現自助式分析,要致力于建立數據信任
- 7.2.3 避免追逐閃亮的新科技,而應該選擇解決問題的技術
- 7.2.2 投資于去中心化數據團隊
- 7.2.1 在與利益相關方打交道時,運用“可控自由”原則
- 7.2 案例分析:在福克斯公司構建數據可靠性
- 7.1.4 構建用戶界面
- 7.1.3 解析數據
- 7.1.2 數據沿襲的設計
- 7.1.1 數據沿襲的基本要求
- 7.1 為現代數據系統構建端到端字段級別的沿襲
- 第7章 構建端到端的數據沿襲
- 6.5 總結
- 6.4.3 使用DevOps的最佳實踐來規模化數據事件管理
- 6.4.2 PagerDuty的數據挑戰
- 6.4.1 PagerDuty的數據運營概況
- 6.4 案例分析:PagerDuty公司的數據事件管理
- 6.3.2 為什么數據事件指揮官如此重要
- 6.3.1 建立事件管理的標準程序
- 6.3 事件應對與緩解策略
- 6.2.5 不做指責的復盤
- 6.2.4 解決
- 6.2.3 根因分析
- 6.2.2 響應
- 6.2.1 事件檢測
- 6.2 數據事件管理
- 6.1 在軟件研發過程中解決數據質量問題
- 第6章 解決大規模數據質量問題
- 5.7 總結
- 5.6 案例分析:Blinkist
- 5.5.3 如何為數據設置SLA、SLO和SLI
- 5.5.2 評估數據質量的投資回報率
- 5.5.1 數據可觀測性
- 5.5 建立對數據的信任
- 5.4.5 數據發現和治理
- 5.4.4 商業智能和分析
- 5.4.3 數據轉換和建模
- 5.4.2 數據存儲和處理
- 5.4.1 數據攝取
- 5.4 構建數據平臺
- 5.3 了解下游的數據質量
- 5.2 度量和維護管道中的數據質量
- 5.1 在攝取數據時評估并維護高數據可靠性
- 第5章 為數據可靠性進行架構設計
- 4.7 總結
- 4.6 為數據倉庫和數據湖分別設計數據質量監控器
- 4.5 深入探究:其他有用的異常檢測方法
- 4.4.6 模型的準確率重要嗎
- 4.4.5 F分數
- 4.4.4 通過數據監控檢測新鮮度事件
- 4.4.3 提高精確率和召回率
- 4.4.2 假陽性和假陰性的解釋
- 4.4.1 利用機器學習改進數據監控警報
- 4.4 使用Python和機器學習擴展異常檢測
- 4.3.3 調查數據異常
- 4.3.2 對沿襲進行可視化
- 4.3.1 模式變更和沿襲的異常檢測
- 4.3 為模式和沿襲構建監控器
- 4.2.2 了解分布
- 4.2.1 新鮮度監控
- 4.2 構建異常檢測的算法
- 4.1 了解已知的未知和未知的未知
- 第4章 數據管道的監控和異常檢測
- 3.9 總結
- 3.8.3 SQL檢查運算符
- 3.8.2 在Apache Airflow中安裝斷路器
- 3.8.1 調度程序的SLA
- 3.8 使用Apache Airflow管理數據質量
- 3.7.3 Deequ單元測試
- 3.7.2 Great Expectations單元測試
- 3.7.1 dbt單元測試
- 3.7 警報和測試
- 3.6.2 確保轉換期間的數據質量
- 3.6.1 確保ETL期間的數據質量
- 3.6 運行分析型數據轉換
- 3.5.4 管理AWS Kinesis和Apache Kafka之間的事務型數據轉換
- 3.5.3 數據中的句法歧義與語義歧義
- 3.5.2 模式檢查和類型強制轉換
- 3.5.1 處理異構數據源
- 3.5 數據標準化
- 3.4 流處理的數據質量
- 3.3 批處理與流處理
- 3.2 清洗數據
- 3.1.3 傳感器數據
- 3.1.2 API響應
- 3.1.1 應用程序日志數據
- 3.1 收集數據
- 第3章 收集、清洗、轉換和測試數據
- 2.7 總結
- 2.6 構建數據目錄
- 2.5 設計數據目錄
- 2.4.4 使用查詢日志了解數據湖中的數據質量
- 2.4.3 使用查詢日志了解數據倉庫中的數據質量
- 2.4.2 如何提取數據質量指標
- 2.4.1 什么是數據質量指標
- 2.4 收集數據質量指標
- 2.3.4 在倉庫和湖之間同步數據
- 2.3.3 什么是湖倉一體
- 2.3.2 數據湖:文件級別的操作
- 2.3.1 數據倉庫:模式級別的表類型
- 2.3 數據倉庫與數據湖
- 2.2 是什么讓它們有所不同
- 2.1 了解事務型數據和分析型數據之間的差異
- 第2章 對可靠數據系統的構建模塊進行組裝
- 1.3 總結
- 1.2.2 促成當前形勢的其他行業趨勢
- 1.2.1 了解“數據宕機的增加”
- 1.2 構筑當下
- 1.1 什么是數據質量
- 第1章 為什么數據質量值得關注
- 前言
- 譯者序
- 本書贊譽
- 文前
- O'Reilly Media,Inc.介紹
- 版權頁
- 封面
- 封面
- 版權頁
- O'Reilly Media,Inc.介紹
- 文前
- 本書贊譽
- 譯者序
- 前言
- 第1章 為什么數據質量值得關注
- 1.1 什么是數據質量
- 1.2 構筑當下
- 1.2.1 了解“數據宕機的增加”
- 1.2.2 促成當前形勢的其他行業趨勢
- 1.3 總結
- 第2章 對可靠數據系統的構建模塊進行組裝
- 2.1 了解事務型數據和分析型數據之間的差異
- 2.2 是什么讓它們有所不同
- 2.3 數據倉庫與數據湖
- 2.3.1 數據倉庫:模式級別的表類型
- 2.3.2 數據湖:文件級別的操作
- 2.3.3 什么是湖倉一體
- 2.3.4 在倉庫和湖之間同步數據
- 2.4 收集數據質量指標
- 2.4.1 什么是數據質量指標
- 2.4.2 如何提取數據質量指標
- 2.4.3 使用查詢日志了解數據倉庫中的數據質量
- 2.4.4 使用查詢日志了解數據湖中的數據質量
- 2.5 設計數據目錄
- 2.6 構建數據目錄
- 2.7 總結
- 第3章 收集、清洗、轉換和測試數據
- 3.1 收集數據
- 3.1.1 應用程序日志數據
- 3.1.2 API響應
- 3.1.3 傳感器數據
- 3.2 清洗數據
- 3.3 批處理與流處理
- 3.4 流處理的數據質量
- 3.5 數據標準化
- 3.5.1 處理異構數據源
- 3.5.2 模式檢查和類型強制轉換
- 3.5.3 數據中的句法歧義與語義歧義
- 3.5.4 管理AWS Kinesis和Apache Kafka之間的事務型數據轉換
- 3.6 運行分析型數據轉換
- 3.6.1 確保ETL期間的數據質量
- 3.6.2 確保轉換期間的數據質量
- 3.7 警報和測試
- 3.7.1 dbt單元測試
- 3.7.2 Great Expectations單元測試
- 3.7.3 Deequ單元測試
- 3.8 使用Apache Airflow管理數據質量
- 3.8.1 調度程序的SLA
- 3.8.2 在Apache Airflow中安裝斷路器
- 3.8.3 SQL檢查運算符
- 3.9 總結
- 第4章 數據管道的監控和異常檢測
- 4.1 了解已知的未知和未知的未知
- 4.2 構建異常檢測的算法
- 4.2.1 新鮮度監控
- 4.2.2 了解分布
- 4.3 為模式和沿襲構建監控器
- 4.3.1 模式變更和沿襲的異常檢測
- 4.3.2 對沿襲進行可視化
- 4.3.3 調查數據異常
- 4.4 使用Python和機器學習擴展異常檢測
- 4.4.1 利用機器學習改進數據監控警報
- 4.4.2 假陽性和假陰性的解釋
- 4.4.3 提高精確率和召回率
- 4.4.4 通過數據監控檢測新鮮度事件
- 4.4.5 F分數
- 4.4.6 模型的準確率重要嗎
- 4.5 深入探究:其他有用的異常檢測方法
- 4.6 為數據倉庫和數據湖分別設計數據質量監控器
- 4.7 總結
- 第5章 為數據可靠性進行架構設計
- 5.1 在攝取數據時評估并維護高數據可靠性
- 5.2 度量和維護管道中的數據質量
- 5.3 了解下游的數據質量
- 5.4 構建數據平臺
- 5.4.1 數據攝取
- 5.4.2 數據存儲和處理
- 5.4.3 數據轉換和建模
- 5.4.4 商業智能和分析
- 5.4.5 數據發現和治理
- 5.5 建立對數據的信任
- 5.5.1 數據可觀測性
- 5.5.2 評估數據質量的投資回報率
- 5.5.3 如何為數據設置SLA、SLO和SLI
- 5.6 案例分析:Blinkist
- 5.7 總結
- 第6章 解決大規模數據質量問題
- 6.1 在軟件研發過程中解決數據質量問題
- 6.2 數據事件管理
- 6.2.1 事件檢測
- 6.2.2 響應
- 6.2.3 根因分析
- 6.2.4 解決
- 6.2.5 不做指責的復盤
- 6.3 事件應對與緩解策略
- 6.3.1 建立事件管理的標準程序
- 6.3.2 為什么數據事件指揮官如此重要
- 6.4 案例分析:PagerDuty公司的數據事件管理
- 6.4.1 PagerDuty的數據運營概況
- 6.4.2 PagerDuty的數據挑戰
- 6.4.3 使用DevOps的最佳實踐來規模化數據事件管理
- 6.5 總結
- 第7章 構建端到端的數據沿襲
- 7.1 為現代數據系統構建端到端字段級別的沿襲
- 7.1.1 數據沿襲的基本要求
- 7.1.2 數據沿襲的設計
- 7.1.3 解析數據
- 7.1.4 構建用戶界面
- 7.2 案例分析:在福克斯公司構建數據可靠性
- 7.2.1 在與利益相關方打交道時,運用“可控自由”原則
- 7.2.2 投資于去中心化數據團隊
- 7.2.3 避免追逐閃亮的新科技,而應該選擇解決問題的技術
- 7.2.4 為實現自助式分析,要致力于建立數據信任
- 7.3 總結
- 第8章 推廣和普及數據質量
- 8.1 將“數據”視為產品
- 8.2 將數據視為產品的經驗
- 8.2.1 Convoy案例分析:數據即服務或輸出
- 8.2.2 Uber案例分析:數據產品經理的崛起
- 8.2.3 采用“數據即產品”的方法
- 8.3 在數據平臺中建立信任
- 8.3.1 確保產品目標與業務目標保持一致
- 8.3.2 尋求適合的利益相關方的反饋與認可
- 8.3.3 優先考慮長期增長和可持續性,而非短期收益
- 8.3.4 為數據及其評估標準設定基準指標
- 8.3.5 了解何時構建、何時購買
- 8.4 分配數據質量所有權
- 8.4.1 首席數據官
- 8.4.2 商業智能分析師
- 8.4.3 分析工程師
- 8.4.4 數據科學家
- 8.4.5 數據治理主管
- 8.4.6 數據工程師
- 8.4.7 數據產品經理
- 8.4.8 誰來負責數據可靠性
- 8.5 為數據質量創建責任制
- 8.6 平衡數據可訪問性與數據信任
- 8.7 對數據進行認證
- 8.8 實施數據認證流程的七個步驟
- 8.9 案例分析:Toast尋找適合其數據團隊結構的過程
- 8.9.1 起初:一個艱難滿足數據需求的小團隊
- 8.9.2 以分散式數據運營支持超級增長
- 8.9.3 重組、再集中化并重新聚焦于數據信任
- 8.9.4 在擴張數據團隊時需要考慮的因素
- 8.10 提高數據素養
- 8.11 優先考慮數據治理和合規性
- 8.11.1 優先考慮數據目錄
- 8.11.2 數據目錄之外:實施數據治理
- 8.12 構建數據質量策略
- 8.12.1 讓領導層對數據質量最終負責
- 8.12.2 設定數據質量的KPI
- 8.12.3 帶頭實施數據治理計劃
- 8.12.4 自動化數據沿襲與數據治理工具
- 8.12.5 創建溝通計劃
- 8.13 總結
- 第9章 現實世界中的數據質量:對話和案例分析
- 9.1 為更高的數據質量構建數據網格
- 9.1.1 面向領域的數據所有者和數據管道
- 9.1.2 自助式服務功能
- 9.1.3 互操作性與通信標準化
- 9.2 為什么要實施數據網格
- 9.2.1 選不選網格
- 9.2.2 計算你的數據網格分數
- 9.3 與Zhamak Dehghani的對話:數據質量在數據網格中的作用
- 9.3.1 你可以從單一解決方案構建數據網格嗎
- 9.3.2 數據網格是數據虛擬化的另一種表達嗎
- 9.3.3 每個數據產品團隊是否管理自己獨立的數據存儲
- 9.3.4 自助式數據平臺與分散式數據網格是一回事嗎
- 9.3.5 數據網格適用于所有的數據團隊嗎
- 9.3.6 團隊中的某個人會“擁有”數據網格嗎
- 9.3.7 數據網格是否會引起數據工程師和數據分析師之間的摩擦
- 9.4 案例分析:Kolibri Games的數據棧之旅
- 9.4.1 最初的數據需求
- 9.4.2 追求績效營銷
- 9.4.3 2018年:專業化和集中化
- 9.4.4 開始以數據為導向
- 9.4.5 開始數據驅動
- 9.4.6 構建數據網格
- 9.4.7 五年數據演變的五個關鍵思考
- 9.5 讓元數據為業務服務
- 9.6 通過數據發現釋放元數據的價值
- 9.6.1 數據倉庫和數據湖的考量
- 9.6.2 數據目錄可能淹沒在數據湖甚至數據網格中
- 9.6.3 從傳統的數據目錄過渡到現代的數據發現
- 9.7 決定何時開始處理公司的數據質量問題
- 9.7.1 在最近遷移到云端
- 9.7.2 數據棧隨著更多的數據源、更多的表和更高的復雜性而擴展
- 9.7.3 你的數據團隊正在擴充
- 9.7.4 你的團隊至少花費了30%的時間來解決數據質量問題
- 9.7.5 你的團隊擁有比一年前更多的數據消費者
- 9.7.6 你的公司正在轉向自助式服務分析模型
- 9.7.7 數據是客戶價值主張的關鍵部分
- 9.7.8 數據質量源于信任
- 9.8 總結
- 第10章 開創可靠數據系統的未來
- 10.1 要積極主動,而不是消極被動
- 10.2 對數據質量和數據可靠性未來的預測
- 10.2.1 數據倉庫和數據湖將融為一體
- 10.2.2 數據團隊中的新角色
- 10.2.3 自動化的興起
- 10.2.4 更多的分布式環境與數據領域的興起
- 10.3 何去何從
- 作者介紹
- 封面介紹
- 推薦閱讀
- 封底 更新時間:2024-08-19 16:21:20