舉報

會員
Greenplum構建實時數據倉庫實踐
王雪迎 著
更新時間:2023-09-08 19:52:16
開會員,本書免費讀 >
最新章節:
10.6 小結
Greenplum分布式數據庫具有可選存儲模式、事務支持、并行查詢與數據裝載、容錯與故障轉移、數據庫統計、過程化語言擴展等方面的功能特性,因此Greenplum成為一款理想的分析型數據庫產品。本書詳解Greenplum數據倉庫構建與數據分析技術,配套示例源碼。本書共分10章。內容包括數據倉庫簡介、數據倉庫設計基礎、Greenplum與數據倉庫、Greenplum安裝部署、實時數據同步、實時數據裝載、維度表技術、事實表技術、Greenplum運維與監控、集成機器學習庫MADlib。
- 10.6 小結 更新時間:2023-09-08 19:52:16
- 10.5.3 交叉驗證示例
- 10.5.2 MADlib的交叉驗證相關函數
- 10.5.1 交叉驗證
- 10.5 模型評估
- 10.4.2 奇異值分解
- 10.4.1 低秩矩陣分解
- 10.4 MADlib示例——使用矩陣分解實現用戶推薦
- 10.3.3 卸載MADlib
- 10.3.2 安裝MADlib
- 10.3.1 確定安裝平臺
- 10.3 MADlib的安裝與卸載
- 10.2.2 MADlib主要的功能模塊
- 10.2.1 MADlib支持的模型類型
- 10.2 MADlib的功能
- 10.1.5 MADlib的基礎架構
- 10.1.4 MADlib的執行流程
- 10.1.3 MADlib的工作原理
- 10.1.2 MADlib的設計思想
- 10.1.1 MADlib是什么
- 10.1 MADlib的基本概念
- 第10章 集成機器學習庫MADlib
- 9.7 小結
- 9.6.5 補丁與升級
- 9.6.4 數據庫維護
- 9.6.3 系統目錄表監控
- 9.6.2 硬件和操作系統監控
- 9.6.1 數據庫實例狀態監控
- 9.6 推薦的監控與維護任務
- 9.5.7 管理數據庫日志文件
- 9.5.6 重建索引
- 9.5.5 自動收集統計信息
- 9.5.4 為查詢優化執行VACUUM與ANALYZE
- 9.5.3 加強的系統目錄維護
- 9.5.2 定期維護系統目錄
- 9.5.1 定期VACUUM
- 9.5 例行維護
- 9.4.7 查看服務器日志文件
- 9.4.6 查看工作文件使用信息
- 9.4.5 查看會話的內存使用信息
- 9.4.4 查看數據庫對象的元數據信息
- 9.4.3 檢查數據分布傾斜
- 9.4.2 檢查磁盤空間使用
- 9.4.1 檢查系統狀態
- 9.4 例行監控
- 9.3.3 查詢剖析
- 9.3.2 控制溢出文件
- 9.3.1 常用優化手段
- 9.3 性能優化
- 9.2.8 格式化數據文件
- 9.2.7 導出數據
- 9.2.6 使用COPY互拷數據
- 9.2.5 使用gpload導入數據
- 9.2.4 外部表錯誤處理
- 9.2.3 基于Web的外部表
- 9.2.2 gpfdist及其外部表
- 9.2.1 file://協議及其外部表
- 9.2 數據導入導出
- 9.1.4 口令加密
- 9.1.3 管理對象權限
- 9.1.2 管理角色及其成員
- 9.1.1 Greenplum中的角色與權限
- 9.1 權限與角色管理
- 第9章 Greenplum運維與監控
- 8.7 小結
- 8.6 累積度量
- 8.5 遲到的事實
- 8.4 無事實的事實表
- 8.3 累積快照
- 8.2 周期快照
- 8.1 事實表概述
- 第8章 事實表技術
- 7.9 小結
- 7.8 分段維度
- 7.7 維度合并
- 7.6 雜項維度
- 7.5 退化維度
- 7.4.3 參差不齊的層次
- 7.4.2 多路徑的層次
- 7.4.1 固定深度的層次
- 7.4 層次維度
- 7.3 角色扮演維度
- 7.2 維度子集
- 7.1 增加列
- 第7章 維度表技術
- 6.5 小結
- 6.4 動態分區滾動
- 6.3.5 測試
- 6.3.4 啟動實時裝載
- 6.3.3 在Greenplum中創建規則
- 6.3.2 配置增量數據同步
- 6.3.1 識別數據源與裝載類型
- 6.3 實時裝載
- 6.2.4 執行初始裝載
- 6.2.3 實現代理鍵
- 6.2.2 確定SCD處理方法
- 6.2.1 數據源映射
- 6.2 初始裝載
- 6.1.3 生成日期維度數據
- 6.1.2 建立數據庫表
- 6.1.1 業務場景
- 6.1 建立數據倉庫示例模型
- 第6章 實時數據裝載
- 5.7 小結
- 5.6.6 消費延遲監控
- 5.6.5 實時CDC
- 5.6.4 配置HA模式
- 5.6.3 Canal ClientAdapter安裝配置
- 5.6.2 Canal Server安裝配置
- 5.6.1 總體架構
- 5.6 Canal Server + Kafka + Canal ClientAdapter
- 5.5.5 實時CDC
- 5.5.4 如何保證數據的順序消費
- 5.5.3 Bireme安裝配置
- 5.5.2 Maxwell安裝配置
- 5.5.1 總體架構
- 5.5 Maxwell + Kafka + Bireme
- 5.4.2 如何選定分區數量
- 5.4.1 使用單分區
- 5.4 選擇主題分區數
- 5.3.2 Kafka消費者與分區
- 5.3.1 Kafka基本概念
- 5.3 使用Kafka
- 5.2.3 復制的步驟
- 5.2.2 二進制日志binlog
- 5.2.1 復制的用途
- 5.2 MySQL數據復制
- 5.1.4 基于日志的CDC
- 5.1.3 基于快照的CDC
- 5.1.2 基于觸發器的CDC
- 5.1.1 基于源數據的CDC
- 5.1 數據抽取方式
- 第5章 實時數據同步
- 4.10 小結
- 4.9.2 升級步驟
- 4.9.1 升級條件
- 4.9 Greenplum升級
- 4.8.2 創建數據庫用戶
- 4.8.1 創建臨時表空間
- 4.8 后續步驟
- 4.7 修改Greenplum配置參數
- 4.6 允許客戶端連接
- 4.5.4 設置Greenplum環境變量
- 4.5.3 初始化數據庫
- 4.5.2 驗證系統
- 4.5.1 創建數據存儲區
- 4.5 初始化Greenplum數據庫系統
- 4.4.3 確認軟件安裝
- 4.4.2 配置免密SSH
- 4.4.1 安裝軟件包
- 4.4 安裝Greenplum軟件
- 4.3.6 安裝JDK(可選)
- 4.3.5 創建Greenplum管理員賬號
- 4.3.4 時鐘同步
- 4.3.3 操作系統推薦配置
- 4.3.2 禁用SELinux和防火墻
- 4.3.1 安裝操作系統
- 4.3 操作系統配置
- 4.2.4 RAID劃分最佳實踐
- 4.2.3 元數據和日志空間
- 4.2.2 用戶數據容量
- 4.2.1 可用磁盤空間
- 4.2 容量評估
- 4.1.3 文件系統
- 4.1.2 硬件和網絡
- 4.1.1 操作系統
- 4.1 平臺需求
- 第4章 Greenplum安裝部署
- 3.5 小結
- 3.4.3 Greenplum的局限
- 3.4.2 適合DBA的解決方案
- 3.4.1 Greenplum還是SQL-on-Hadoop
- 3.4 為什么選擇Greenplum
- 3.3.6 數據庫統計
- 3.3.5 冗余與故障轉移
- 3.3.4 并行數據裝載
- 3.3.3 并行查詢
- 3.3.2 事務與并發控制
- 3.3.1 存儲模式
- 3.3 Greenplum功能特性
- 3.2.4 Interconnect
- 3.2.3 Segment
- 3.2.2 Master
- 3.2.1 Greenplum與PostgreSQL
- 3.2 Greenplum系統架構
- 3.1.2 MPP——一切皆并行
- 3.1.1 歷史與現狀
- 3.1 Greenplum簡介
- 第3章 Greenplum與數據倉庫
- 2.6 小結
- 2.5 數據倉庫實施步驟
- 3.數據集市設計
- 2.數據集市與數據倉庫的區別
- 1.數據集市的概念
- 2.4 數據集市
- 2.3.5 Data Vault模型實例
- 2.3.4 Data Vault模型的構建
- 2.3.3 Data Vault模型的特點
- 2.3.2 Data Vault模型的組成部分
- 2.3.1 Data Vault模型簡介
- 2.3 Data Vault模型
- 2.2.5 雪花模式
- 2.2.4 星型模式
- 2.2.3 維度數據模型的特點
- 2.2.2 維度規范化
- 2.2.1 維度數據模型建模過程
- 2.2 維度數據模型
- 2.1.5 關系數據模型與數據倉庫
- 2.1.4 規范化
- 2.1.3 關系數據庫語言
- 2.1.2 關系完整性
- 2.1.1 關系數據模型中的結構
- 2.1 關系數據模型
- 第2章 數據倉庫設計基礎
- 1.6 小結
- 1.5.3 實時數據倉庫解決方案
- 1.5.2 實時計算
- 1.5.1 流式處理
- 1.5 實時數據倉庫
- 1.4.3 操作型數據存儲
- 1.4.2 主要數據倉庫架構
- 1.4.1 基本架構
- 1.4 數據倉庫架構
- 1.3.4 開發ETL系統的方法
- 1.3.3 數據裝載
- 1.3.2 數據轉換
- 1.3.1 數據抽取
- 1.3 抽取—轉換—裝載
- 1.2.3 操作型系統和分析型系統的對比
- 1.2.2 分析型系統
- 1.2.1 操作型系統
- 1.2 操作型系統與分析型系統
- 1.1.2 建立數據倉庫的原因
- 1.1.1 數據倉庫的定義
- 1.1 什么是數據倉庫
- 第1章 數據倉庫簡介
- 致謝
- 源碼下載
- 讀者對象
- 本書內容
- 前言
- 推薦序
- 內容簡介
- 版權信息
- 封面
- 封面
- 版權信息
- 內容簡介
- 推薦序
- 前言
- 本書內容
- 讀者對象
- 源碼下載
- 致謝
- 第1章 數據倉庫簡介
- 1.1 什么是數據倉庫
- 1.1.1 數據倉庫的定義
- 1.1.2 建立數據倉庫的原因
- 1.2 操作型系統與分析型系統
- 1.2.1 操作型系統
- 1.2.2 分析型系統
- 1.2.3 操作型系統和分析型系統的對比
- 1.3 抽取—轉換—裝載
- 1.3.1 數據抽取
- 1.3.2 數據轉換
- 1.3.3 數據裝載
- 1.3.4 開發ETL系統的方法
- 1.4 數據倉庫架構
- 1.4.1 基本架構
- 1.4.2 主要數據倉庫架構
- 1.4.3 操作型數據存儲
- 1.5 實時數據倉庫
- 1.5.1 流式處理
- 1.5.2 實時計算
- 1.5.3 實時數據倉庫解決方案
- 1.6 小結
- 第2章 數據倉庫設計基礎
- 2.1 關系數據模型
- 2.1.1 關系數據模型中的結構
- 2.1.2 關系完整性
- 2.1.3 關系數據庫語言
- 2.1.4 規范化
- 2.1.5 關系數據模型與數據倉庫
- 2.2 維度數據模型
- 2.2.1 維度數據模型建模過程
- 2.2.2 維度規范化
- 2.2.3 維度數據模型的特點
- 2.2.4 星型模式
- 2.2.5 雪花模式
- 2.3 Data Vault模型
- 2.3.1 Data Vault模型簡介
- 2.3.2 Data Vault模型的組成部分
- 2.3.3 Data Vault模型的特點
- 2.3.4 Data Vault模型的構建
- 2.3.5 Data Vault模型實例
- 2.4 數據集市
- 1.數據集市的概念
- 2.數據集市與數據倉庫的區別
- 3.數據集市設計
- 2.5 數據倉庫實施步驟
- 2.6 小結
- 第3章 Greenplum與數據倉庫
- 3.1 Greenplum簡介
- 3.1.1 歷史與現狀
- 3.1.2 MPP——一切皆并行
- 3.2 Greenplum系統架構
- 3.2.1 Greenplum與PostgreSQL
- 3.2.2 Master
- 3.2.3 Segment
- 3.2.4 Interconnect
- 3.3 Greenplum功能特性
- 3.3.1 存儲模式
- 3.3.2 事務與并發控制
- 3.3.3 并行查詢
- 3.3.4 并行數據裝載
- 3.3.5 冗余與故障轉移
- 3.3.6 數據庫統計
- 3.4 為什么選擇Greenplum
- 3.4.1 Greenplum還是SQL-on-Hadoop
- 3.4.2 適合DBA的解決方案
- 3.4.3 Greenplum的局限
- 3.5 小結
- 第4章 Greenplum安裝部署
- 4.1 平臺需求
- 4.1.1 操作系統
- 4.1.2 硬件和網絡
- 4.1.3 文件系統
- 4.2 容量評估
- 4.2.1 可用磁盤空間
- 4.2.2 用戶數據容量
- 4.2.3 元數據和日志空間
- 4.2.4 RAID劃分最佳實踐
- 4.3 操作系統配置
- 4.3.1 安裝操作系統
- 4.3.2 禁用SELinux和防火墻
- 4.3.3 操作系統推薦配置
- 4.3.4 時鐘同步
- 4.3.5 創建Greenplum管理員賬號
- 4.3.6 安裝JDK(可選)
- 4.4 安裝Greenplum軟件
- 4.4.1 安裝軟件包
- 4.4.2 配置免密SSH
- 4.4.3 確認軟件安裝
- 4.5 初始化Greenplum數據庫系統
- 4.5.1 創建數據存儲區
- 4.5.2 驗證系統
- 4.5.3 初始化數據庫
- 4.5.4 設置Greenplum環境變量
- 4.6 允許客戶端連接
- 4.7 修改Greenplum配置參數
- 4.8 后續步驟
- 4.8.1 創建臨時表空間
- 4.8.2 創建數據庫用戶
- 4.9 Greenplum升級
- 4.9.1 升級條件
- 4.9.2 升級步驟
- 4.10 小結
- 第5章 實時數據同步
- 5.1 數據抽取方式
- 5.1.1 基于源數據的CDC
- 5.1.2 基于觸發器的CDC
- 5.1.3 基于快照的CDC
- 5.1.4 基于日志的CDC
- 5.2 MySQL數據復制
- 5.2.1 復制的用途
- 5.2.2 二進制日志binlog
- 5.2.3 復制的步驟
- 5.3 使用Kafka
- 5.3.1 Kafka基本概念
- 5.3.2 Kafka消費者與分區
- 5.4 選擇主題分區數
- 5.4.1 使用單分區
- 5.4.2 如何選定分區數量
- 5.5 Maxwell + Kafka + Bireme
- 5.5.1 總體架構
- 5.5.2 Maxwell安裝配置
- 5.5.3 Bireme安裝配置
- 5.5.4 如何保證數據的順序消費
- 5.5.5 實時CDC
- 5.6 Canal Server + Kafka + Canal ClientAdapter
- 5.6.1 總體架構
- 5.6.2 Canal Server安裝配置
- 5.6.3 Canal ClientAdapter安裝配置
- 5.6.4 配置HA模式
- 5.6.5 實時CDC
- 5.6.6 消費延遲監控
- 5.7 小結
- 第6章 實時數據裝載
- 6.1 建立數據倉庫示例模型
- 6.1.1 業務場景
- 6.1.2 建立數據庫表
- 6.1.3 生成日期維度數據
- 6.2 初始裝載
- 6.2.1 數據源映射
- 6.2.2 確定SCD處理方法
- 6.2.3 實現代理鍵
- 6.2.4 執行初始裝載
- 6.3 實時裝載
- 6.3.1 識別數據源與裝載類型
- 6.3.2 配置增量數據同步
- 6.3.3 在Greenplum中創建規則
- 6.3.4 啟動實時裝載
- 6.3.5 測試
- 6.4 動態分區滾動
- 6.5 小結
- 第7章 維度表技術
- 7.1 增加列
- 7.2 維度子集
- 7.3 角色扮演維度
- 7.4 層次維度
- 7.4.1 固定深度的層次
- 7.4.2 多路徑的層次
- 7.4.3 參差不齊的層次
- 7.5 退化維度
- 7.6 雜項維度
- 7.7 維度合并
- 7.8 分段維度
- 7.9 小結
- 第8章 事實表技術
- 8.1 事實表概述
- 8.2 周期快照
- 8.3 累積快照
- 8.4 無事實的事實表
- 8.5 遲到的事實
- 8.6 累積度量
- 8.7 小結
- 第9章 Greenplum運維與監控
- 9.1 權限與角色管理
- 9.1.1 Greenplum中的角色與權限
- 9.1.2 管理角色及其成員
- 9.1.3 管理對象權限
- 9.1.4 口令加密
- 9.2 數據導入導出
- 9.2.1 file://協議及其外部表
- 9.2.2 gpfdist及其外部表
- 9.2.3 基于Web的外部表
- 9.2.4 外部表錯誤處理
- 9.2.5 使用gpload導入數據
- 9.2.6 使用COPY互拷數據
- 9.2.7 導出數據
- 9.2.8 格式化數據文件
- 9.3 性能優化
- 9.3.1 常用優化手段
- 9.3.2 控制溢出文件
- 9.3.3 查詢剖析
- 9.4 例行監控
- 9.4.1 檢查系統狀態
- 9.4.2 檢查磁盤空間使用
- 9.4.3 檢查數據分布傾斜
- 9.4.4 查看數據庫對象的元數據信息
- 9.4.5 查看會話的內存使用信息
- 9.4.6 查看工作文件使用信息
- 9.4.7 查看服務器日志文件
- 9.5 例行維護
- 9.5.1 定期VACUUM
- 9.5.2 定期維護系統目錄
- 9.5.3 加強的系統目錄維護
- 9.5.4 為查詢優化執行VACUUM與ANALYZE
- 9.5.5 自動收集統計信息
- 9.5.6 重建索引
- 9.5.7 管理數據庫日志文件
- 9.6 推薦的監控與維護任務
- 9.6.1 數據庫實例狀態監控
- 9.6.2 硬件和操作系統監控
- 9.6.3 系統目錄表監控
- 9.6.4 數據庫維護
- 9.6.5 補丁與升級
- 9.7 小結
- 第10章 集成機器學習庫MADlib
- 10.1 MADlib的基本概念
- 10.1.1 MADlib是什么
- 10.1.2 MADlib的設計思想
- 10.1.3 MADlib的工作原理
- 10.1.4 MADlib的執行流程
- 10.1.5 MADlib的基礎架構
- 10.2 MADlib的功能
- 10.2.1 MADlib支持的模型類型
- 10.2.2 MADlib主要的功能模塊
- 10.3 MADlib的安裝與卸載
- 10.3.1 確定安裝平臺
- 10.3.2 安裝MADlib
- 10.3.3 卸載MADlib
- 10.4 MADlib示例——使用矩陣分解實現用戶推薦
- 10.4.1 低秩矩陣分解
- 10.4.2 奇異值分解
- 10.5 模型評估
- 10.5.1 交叉驗證
- 10.5.2 MADlib的交叉驗證相關函數
- 10.5.3 交叉驗證示例
- 10.6 小結 更新時間:2023-09-08 19:52:16