- Spark分布式處理實戰
- 劉均 王璐烽主編
- 679字
- 2023-10-09 15:51:56
如何閱讀本書
本書以項目實踐作為主線,結合必需的理論知識,以任務的形式進行設計。每個任務都包含任務描述及任務實施的步驟,讀者按照實施步驟進行操作就可以完成相應的學習任務,不斷提升項目實踐能力。
各項目的主要內容如下。
項目1講解Spark基本原理,通過案例實現Spark集群的安裝和配置,完成Spark任務集群提交與運行的任務。
項目2講解如何基于IDEA搭建Spark開發環境,編寫Spark單詞統計程序,將程序部署到Spark集群中并運行。
項目3介紹RDD的基本原理,通過案例講解Spark RDD轉換算子和行動算子的使用方法、RDD分區的原理、共享變量的實現原理。
項目4通過案例講解Spark SQL基本操作流程,Spark SQL常用的數據源的使用方法,Spark SQL內置函數和自定義函數的使用方法,Spark SQL的關聯表、分組集合、排序等操作方法。
項目5介紹電商業務系統的基本流程,通過案例講解電商系統數據庫的設計方法以及電商數據分析的基本流程。
項目6以一個國內某大型電商APP系統提供的用戶行為數據作為分析對象,講解電商用戶行為分析的基本指標以及分析過程,主要包括用戶訪問量分析、用戶購買行為分析及各階段轉化率分析等。
項目7以國內某大型電商平臺提供的美妝商品銷售數據集作為分析對象(數據集時間涵蓋了雙十一電商購物節),通過不同的維度對銷售數據進行分析,主要維度包括店鋪維度、商品維度等。
項目8以國內某大型電商平臺提供的訂單數據集作為分析對象,通過不同的維度對訂單數據進行分析,主要維度包括時間維度、區域維度等。
項目9介紹常用的可視化分析圖表的應用場景,以電商用戶行為分析指標、電商銷售數據分析指標以及電商訂單數據分析指標作為數據可視化分析的指標,講解Superset數據可視化分析工具的使用方法。
推薦閱讀
- PyTorch深度學習實戰:從新手小白到數據科學家
- Hands-On Machine Learning with Microsoft Excel 2019
- 圖解機器學習算法
- 大數據:規劃、實施、運維
- Access 2016數據庫技術及應用
- 數據驅動:從方法到實踐
- 一本書講透Elasticsearch:原理、進階與工程實踐
- Unity 2018 By Example(Second Edition)
- Spring Boot 2.0 Cookbook(Second Edition)
- 數據庫原理與設計實驗教程(MySQL版)
- 數字化轉型方法論:落地路徑與數據中臺
- Trino權威指南(原書第2版)
- Configuration Management with Chef-Solo
- 實用預測分析
- MySQL核心技術手冊