舉報

會員
ODPS權威指南 阿里大數據平臺應用開發實踐
最新章節:
后記
ODPS(OpenDataProcessingService)是阿里巴巴自主研發的海量數據處理和分析的服務平臺,主要應用于數據分析、海量數據統計、數據挖掘、機器學習和商業智能等領域。目前,ODPS不僅在阿里內部得到廣泛應用,享有很好的口碑,正逐步走向第三方開放市場?!禣DPS權威指南阿里大數據平臺應用開發實踐》是學習和掌握ODPS的權威指南,作者來自阿里ODPS團隊。全書共13章,主要內容包括:ODPS入門、整體架構、數據通道、MapReduce編程、SQL查詢分析、安全,以及基于真實數據的各種場景分析實戰。本書基于很多范例解析,通過在各種應用場景下的示例來說明如何通過ODPS完成各種需求,以期引導讀者從零開始輕松掌握和使用ODPS。同時,本書不局限于示例分析,也致力于提供更多關于大數據處理的編程思想和經驗分享。書中所有示例代碼都可以在作者提供的網站上免費下載。《ODPS權威指南阿里大數據平臺應用開發實踐》適合想要了解和使用ODPS的讀者閱讀學習,對于從事大數據存儲和應用以及分布式計算的專業人士來說,也是很好的參考資料。
- 后記 更新時間:2019-01-02 08:00:36
- 附錄 ODPS消息認證機制
- 13.5 機器學習平臺
- 13.4 準實時SQL
- 13.3 圖計算模型
- 13.2 實時流計算
- 13.1.3 分析建模
- 13.1.2 一些基本操作
- 13.1.1 安裝和配置
- 13.1 R語言數據探索
- 第13章 探索ODPS之美
- 12.6 小結
- 12.5.2 跨集群同步
- 12.5.1 數據遷移
- 12.5 跨集群復制
- 12.4.3 多控制集群和多計算集群
- 12.4.2 運維管理
- 12.4.1 元數據
- 12.4 內聚式框架
- 12.3.2 CFILE邏輯結構
- 12.3.1 CFILE是什么
- 12.3 底層數據存儲
- 12.2.4 執行邏輯圖
- 12.2.3 查詢作業狀態
- 12.2.2 運行作業
- 12.2.1 提交作業
- 12.2 執行流程
- 12.1.4 存儲/計算層
- 12.1.3 邏輯層
- 12.1.2 接入層
- 12.1.1 客戶端
- 12.1 體系架構
- 第12章 深入了解ODPS
- 11.4 小結
- 11.3.4 跨Project數據保護(Project Protection)
- 11.3.3 跨Project數據同步
- 11.3.2 數據歸并(Merge)
- 11.3.1 表生命周期
- 11.3 數據管理
- 11.2.2 跨Project的資源共享
- 11.2.1 Project內的資源管理
- 11.2 資源管理
- 11.1.6 ACL授權和Policy授權小結
- 11.1.5 Role Policy
- 11.1.4 簡單的Policy授權
- 11.1.3 ACL授權特點
- 11.1.2 角色(Role)授權
- 11.1.1 賬號授權
- 11.1 權限管理
- 第11章 ODPS權限、資源和數據管理
- 10.4 小結
- 10.3 基于Eclipse插件開發
- 10.2 入門示例
- 10.1.2 核心接口
- 10.1.1 主要的Package
- 10.1 主要的Package和接口
- 第10章 使用SDK訪問ODPS服務
- 9.5 小結
- 9.4.4 進一步探討
- 9.4.3 腳本實現和自動化
- 9.4.2 隨機森林
- 9.4.1 邏輯回歸
- 9.4 天貓品牌預測
- 9.3.2 隨機森林(Random Forest)
- 9.3.1 邏輯回歸(Logistic Progression)
- 9.3 幾個經典的算法
- 9.2.2 通過XLab統計分析
- 9.2.1 通過CLT統計分析
- 9.2 入門示例
- 9.1 初識ODPS算法
- 第9章 機器學習算法
- 8.6 小結
- 8.5 一些注意事項
- 8.4.4 通過log調試
- 8.4.3 通過Counter調試
- 8.4.2 通過本地模式調試
- 8.4.1 帶bug的代碼
- 8.4 MapReduce調試
- 8.3.4 運行和測試
- 8.3.3 代碼實現和分析
- 8.3.2 問題定義和分析
- 8.3.1 場景和數據說明
- 8.3 LBS應用探討:周邊定位
- 8.2.3 代碼實現
- 8.2.2 問題定義和分析
- 8.2.1 場景和數據說明
- 8.2 好友推薦
- 8.1 再談Shuffle & Sort
- 第8章MapReduce 進階
- 7.7 小結
- 7.6 SQL和MapReduce,用哪個?
- 7.5.7 擴展:MR2模型
- 7.5.6 擴展:數據和任務統計
- 7.5.5 擴展:忽略Stop Words
- 7.5.4 運行和結果輸出
- 7.5.3 具體實現分析
- 7.5.2 問題分析
- 7.5.1 場景和數據說明
- 7.5 TopK查詢
- 7.4.5 擴展:使用Combiner?
- 7.4.4 運行和輸出分析
- 7.4.3 代碼實現和分析
- 7.4.2 問題分析
- 7.4.1 準備工作
- 7.4 入門示例
- 7.3 初識ODPS MapReduce
- 7.2 MapReduce應用場景
- 7.1 MapReduce編程模型
- 第7章 使用MapReduce處理數據
- 6.6 小結
- 6.5 一些注意點
- 6.4.5 進一步探討
- 6.4.4 編譯和運行
- 6.4.3 Mapper實現和分析
- 6.4.2 客戶端實現和分析
- 6.4.1 問題分析
- 6.4 從Hadoop遷移到ODPS
- 6.3.3 如何實現高并發
- 6.3.2 客戶端和服務端如何交互
- 6.3.1 數據如何傳輸
- 6.3 Tunnel原理
- 6.2.4 下載數據
- 6.2.3 上傳數據
- 6.2.2 準備數據
- 6.2.1 下載和配置
- 6.2 入門示例
- 6.1 ODPS Tunnel 是什么
- 第6章 通過Tunnel遷移數據
- 5.6 小結
- 5.5.3 一些注意事項
- 5.5.2 一些優化建議
- 5.5.1 數據傾斜
- 5.5 SQL調優
- 5.4.4 物理分析
- 5.4.3 邏輯分析
- 5.4.2 語法分析
- 5.4.1 詞法分析
- 5.4 SQL實現原理
- 5.3.3 網站訪問日志UserAgent解析
- 5.3.2 簡單的LBS應用
- 5.3.1 URL解碼
- 5.3 實際應用案例
- 5.2 入門示例
- 5.1 UDF是什么
- 第5章 SQL進階
- 4.5 小結
- 4.4.10 進一步探討
- 4.4.9 預測結果
- 4.4.8 驗證模型
- 4.4.7 生成模型
- 4.4.6 抽取正負樣本
- 4.4.5 生成特征
- 4.4.4 問題分析和算法設計
- 4.4.3 兩個簡單的實踐
- 4.4.2 理解數據
- 4.4.1 主題說明和前期準備
- 4.4 天貓品牌預測
- 4.3.5 IP黑名單
- 4.3.4 TopK查詢
- 4.3.3 訪問路徑分析
- 4.3.2 維度表
- 4.3.1 準備數據和表
- 4.3 網站日志分析
- 4.2.8 多路輸出(MULTI-INSERT)
- 4.2.7 多表關聯UNION ALL
- 4.2.6 高級查詢
- 4.2.5 多表連接JOIN
- 4.2.4 單表查詢
- 4.2.3 生成數據
- 4.2.2 簡單的DDL操作
- 4.2.1 場景說明
- 4.2 入門示例
- 4.1 ODPS SQL是什么
- 第4章 使用SQL處理海量數據
- 3.5 小結
- 3.4 下載結果表
- 3.3.3 進一步探討
- 3.3.2 問題分析和實現
- 3.3.1 場景和需求說明
- 3.3 MySQL數據同步到ODPS
- 3.2.6 解決方案:SLS
- 3.2.5 為什么這么難
- 3.2.4 進一步探討
- 3.2.3 實現說明
- 3.2.2 問題分析和設計
- 3.2.1 場景和需求說明
- 3.2 收集Web日志
- 3.1 dship工具
- 第3章 收集海量數據
- 2.6 小結
- 2.5 獲取幫助
- 2.4.13 解決方案:采云間
- 2.4.12 刪除數據
- 2.4.11 結果展現
- 2.4.10 結果導出
- 2.4.9 應用數據集市
- 2.4.8 自動化運行
- 2.4.7 數據分析
- 2.4.6 數據加工
- 2.4.5 數據解析和導入
- 2.4.4 創建表并添加分區
- 2.4.3 數據準備
- 2.4.2 需求分析
- 2.4.1 場景和數據說明
- 2.4 網站日志分析實例
- 2.3.5 通過dship上傳下載數據
- 2.3.4 下載和配置dship
- 2.3.3 CLT運行模式
- 2.3.2 準備dual表
- 2.3.1 下載和配置CLT
- 2.3 配置ODPS客戶端
- 2.2 使用管理控制臺
- 2.1.2 開通ODPS服務
- 2.1.1 創建云賬號
- 2.1 準備工作
- 第2章 ODPS入門
- 1.7 小結
- 1.6 現狀和前景
- 1.5.5 阿里媽媽廣告CTR預估
- 1.5.4 阿里金融水文衍生算法
- 1.5.3 支付寶賬號影響力圈
- 1.5.2 CNZZ數據倉庫
- 1.5.1 阿里金融數據倉庫
- 1.5 一些典型場景
- 1.4.5 IDE
- 1.4.4 管理控制臺
- 1.4.3 ODPS CLT
- 1.4.2 ODPS SDK
- 1.4.1 RESTful API
- 1.4 應用開發模式
- 1.3.6 資源(Resource)
- 1.3.5 任務(Task)、作業(Job)和作業實例(Instance)
- 1.3.4 分區(Partition)
- 1.3.3 表(Table)
- 1.3.2 項目空間(Project)
- 1.3.1 賬號(Account)
- 1.3 基本概念
- 1.2.4 ODPS做什么
- 1.2.3 ODPS是什么
- 1.2.2 為什么做ODPS
- 1.2.1 背景和挑戰
- 1.2 初識ODPS
- 1.1 引言
- 第1章 ODPS 概述
- 前言
- 作者簡介
- 推薦序三
- 推薦序二
- 推薦序一
- 版權信息
- 封面
- 封面
- 版權信息
- 推薦序一
- 推薦序二
- 推薦序三
- 作者簡介
- 前言
- 第1章 ODPS 概述
- 1.1 引言
- 1.2 初識ODPS
- 1.2.1 背景和挑戰
- 1.2.2 為什么做ODPS
- 1.2.3 ODPS是什么
- 1.2.4 ODPS做什么
- 1.3 基本概念
- 1.3.1 賬號(Account)
- 1.3.2 項目空間(Project)
- 1.3.3 表(Table)
- 1.3.4 分區(Partition)
- 1.3.5 任務(Task)、作業(Job)和作業實例(Instance)
- 1.3.6 資源(Resource)
- 1.4 應用開發模式
- 1.4.1 RESTful API
- 1.4.2 ODPS SDK
- 1.4.3 ODPS CLT
- 1.4.4 管理控制臺
- 1.4.5 IDE
- 1.5 一些典型場景
- 1.5.1 阿里金融數據倉庫
- 1.5.2 CNZZ數據倉庫
- 1.5.3 支付寶賬號影響力圈
- 1.5.4 阿里金融水文衍生算法
- 1.5.5 阿里媽媽廣告CTR預估
- 1.6 現狀和前景
- 1.7 小結
- 第2章 ODPS入門
- 2.1 準備工作
- 2.1.1 創建云賬號
- 2.1.2 開通ODPS服務
- 2.2 使用管理控制臺
- 2.3 配置ODPS客戶端
- 2.3.1 下載和配置CLT
- 2.3.2 準備dual表
- 2.3.3 CLT運行模式
- 2.3.4 下載和配置dship
- 2.3.5 通過dship上傳下載數據
- 2.4 網站日志分析實例
- 2.4.1 場景和數據說明
- 2.4.2 需求分析
- 2.4.3 數據準備
- 2.4.4 創建表并添加分區
- 2.4.5 數據解析和導入
- 2.4.6 數據加工
- 2.4.7 數據分析
- 2.4.8 自動化運行
- 2.4.9 應用數據集市
- 2.4.10 結果導出
- 2.4.11 結果展現
- 2.4.12 刪除數據
- 2.4.13 解決方案:采云間
- 2.5 獲取幫助
- 2.6 小結
- 第3章 收集海量數據
- 3.1 dship工具
- 3.2 收集Web日志
- 3.2.1 場景和需求說明
- 3.2.2 問題分析和設計
- 3.2.3 實現說明
- 3.2.4 進一步探討
- 3.2.5 為什么這么難
- 3.2.6 解決方案:SLS
- 3.3 MySQL數據同步到ODPS
- 3.3.1 場景和需求說明
- 3.3.2 問題分析和實現
- 3.3.3 進一步探討
- 3.4 下載結果表
- 3.5 小結
- 第4章 使用SQL處理海量數據
- 4.1 ODPS SQL是什么
- 4.2 入門示例
- 4.2.1 場景說明
- 4.2.2 簡單的DDL操作
- 4.2.3 生成數據
- 4.2.4 單表查詢
- 4.2.5 多表連接JOIN
- 4.2.6 高級查詢
- 4.2.7 多表關聯UNION ALL
- 4.2.8 多路輸出(MULTI-INSERT)
- 4.3 網站日志分析
- 4.3.1 準備數據和表
- 4.3.2 維度表
- 4.3.3 訪問路徑分析
- 4.3.4 TopK查詢
- 4.3.5 IP黑名單
- 4.4 天貓品牌預測
- 4.4.1 主題說明和前期準備
- 4.4.2 理解數據
- 4.4.3 兩個簡單的實踐
- 4.4.4 問題分析和算法設計
- 4.4.5 生成特征
- 4.4.6 抽取正負樣本
- 4.4.7 生成模型
- 4.4.8 驗證模型
- 4.4.9 預測結果
- 4.4.10 進一步探討
- 4.5 小結
- 第5章 SQL進階
- 5.1 UDF是什么
- 5.2 入門示例
- 5.3 實際應用案例
- 5.3.1 URL解碼
- 5.3.2 簡單的LBS應用
- 5.3.3 網站訪問日志UserAgent解析
- 5.4 SQL實現原理
- 5.4.1 詞法分析
- 5.4.2 語法分析
- 5.4.3 邏輯分析
- 5.4.4 物理分析
- 5.5 SQL調優
- 5.5.1 數據傾斜
- 5.5.2 一些優化建議
- 5.5.3 一些注意事項
- 5.6 小結
- 第6章 通過Tunnel遷移數據
- 6.1 ODPS Tunnel 是什么
- 6.2 入門示例
- 6.2.1 下載和配置
- 6.2.2 準備數據
- 6.2.3 上傳數據
- 6.2.4 下載數據
- 6.3 Tunnel原理
- 6.3.1 數據如何傳輸
- 6.3.2 客戶端和服務端如何交互
- 6.3.3 如何實現高并發
- 6.4 從Hadoop遷移到ODPS
- 6.4.1 問題分析
- 6.4.2 客戶端實現和分析
- 6.4.3 Mapper實現和分析
- 6.4.4 編譯和運行
- 6.4.5 進一步探討
- 6.5 一些注意點
- 6.6 小結
- 第7章 使用MapReduce處理數據
- 7.1 MapReduce編程模型
- 7.2 MapReduce應用場景
- 7.3 初識ODPS MapReduce
- 7.4 入門示例
- 7.4.1 準備工作
- 7.4.2 問題分析
- 7.4.3 代碼實現和分析
- 7.4.4 運行和輸出分析
- 7.4.5 擴展:使用Combiner?
- 7.5 TopK查詢
- 7.5.1 場景和數據說明
- 7.5.2 問題分析
- 7.5.3 具體實現分析
- 7.5.4 運行和結果輸出
- 7.5.5 擴展:忽略Stop Words
- 7.5.6 擴展:數據和任務統計
- 7.5.7 擴展:MR2模型
- 7.6 SQL和MapReduce,用哪個?
- 7.7 小結
- 第8章MapReduce 進階
- 8.1 再談Shuffle & Sort
- 8.2 好友推薦
- 8.2.1 場景和數據說明
- 8.2.2 問題定義和分析
- 8.2.3 代碼實現
- 8.3 LBS應用探討:周邊定位
- 8.3.1 場景和數據說明
- 8.3.2 問題定義和分析
- 8.3.3 代碼實現和分析
- 8.3.4 運行和測試
- 8.4 MapReduce調試
- 8.4.1 帶bug的代碼
- 8.4.2 通過本地模式調試
- 8.4.3 通過Counter調試
- 8.4.4 通過log調試
- 8.5 一些注意事項
- 8.6 小結
- 第9章 機器學習算法
- 9.1 初識ODPS算法
- 9.2 入門示例
- 9.2.1 通過CLT統計分析
- 9.2.2 通過XLab統計分析
- 9.3 幾個經典的算法
- 9.3.1 邏輯回歸(Logistic Progression)
- 9.3.2 隨機森林(Random Forest)
- 9.4 天貓品牌預測
- 9.4.1 邏輯回歸
- 9.4.2 隨機森林
- 9.4.3 腳本實現和自動化
- 9.4.4 進一步探討
- 9.5 小結
- 第10章 使用SDK訪問ODPS服務
- 10.1 主要的Package和接口
- 10.1.1 主要的Package
- 10.1.2 核心接口
- 10.2 入門示例
- 10.3 基于Eclipse插件開發
- 10.4 小結
- 第11章 ODPS權限、資源和數據管理
- 11.1 權限管理
- 11.1.1 賬號授權
- 11.1.2 角色(Role)授權
- 11.1.3 ACL授權特點
- 11.1.4 簡單的Policy授權
- 11.1.5 Role Policy
- 11.1.6 ACL授權和Policy授權小結
- 11.2 資源管理
- 11.2.1 Project內的資源管理
- 11.2.2 跨Project的資源共享
- 11.3 數據管理
- 11.3.1 表生命周期
- 11.3.2 數據歸并(Merge)
- 11.3.3 跨Project數據同步
- 11.3.4 跨Project數據保護(Project Protection)
- 11.4 小結
- 第12章 深入了解ODPS
- 12.1 體系架構
- 12.1.1 客戶端
- 12.1.2 接入層
- 12.1.3 邏輯層
- 12.1.4 存儲/計算層
- 12.2 執行流程
- 12.2.1 提交作業
- 12.2.2 運行作業
- 12.2.3 查詢作業狀態
- 12.2.4 執行邏輯圖
- 12.3 底層數據存儲
- 12.3.1 CFILE是什么
- 12.3.2 CFILE邏輯結構
- 12.4 內聚式框架
- 12.4.1 元數據
- 12.4.2 運維管理
- 12.4.3 多控制集群和多計算集群
- 12.5 跨集群復制
- 12.5.1 數據遷移
- 12.5.2 跨集群同步
- 12.6 小結
- 第13章 探索ODPS之美
- 13.1 R語言數據探索
- 13.1.1 安裝和配置
- 13.1.2 一些基本操作
- 13.1.3 分析建模
- 13.2 實時流計算
- 13.3 圖計算模型
- 13.4 準實時SQL
- 13.5 機器學習平臺
- 附錄 ODPS消息認證機制
- 后記 更新時間:2019-01-02 08:00:36