舉報(bào)

會員
Spark核心技術(shù)與高級應(yīng)用
最新章節(jié):
20.4 本章小結(jié)
從技術(shù)層面上,Spark作為一個(gè)快速、通用的大規(guī)模數(shù)據(jù)處理引擎,憑借其可伸縮、基于內(nèi)存計(jì)算等特點(diǎn),以及可以直接讀寫HDFS上數(shù)據(jù)的優(yōu)勢,實(shí)現(xiàn)了批處理時(shí)更加高效、延遲更低,已然成為輕量級大數(shù)據(jù)快速處理的統(tǒng)一平臺。Spark集成SparkSQL、SparkStreaming、MLlib、GraphX、SparkR等子框架,并且提供了全新的大數(shù)據(jù)處理方式,讓從業(yè)者的工作變得越來越便捷。本書從基礎(chǔ)講起,針對性地給出了實(shí)戰(zhàn)場景;并圍繞DataFrame,兼顧在SparkSQL和SparkML的應(yīng)用。
最新章節(jié)
- 20.4 本章小結(jié)
- 20.3 容錯(cuò)機(jī)制
- 20.2.3 在Spark上使用Tachyon
- 20.2.2 Tachyon API
- 20.2.1 Tachyon 部署
- 20.2 Tachyon入門
品牌:機(jī)械工業(yè)出版社
上架時(shí)間:2016-02-29 11:46:20
出版社:機(jī)械工業(yè)出版社
本書數(shù)字版權(quán)由機(jī)械工業(yè)出版社提供,并由其授權(quán)上海閱文信息技術(shù)有限公司制作發(fā)行
- 20.4 本章小結(jié) 更新時(shí)間:2019-01-01 01:25:42
- 20.3 容錯(cuò)機(jī)制
- 20.2.3 在Spark上使用Tachyon
- 20.2.2 Tachyon API
- 20.2.1 Tachyon 部署
- 20.2 Tachyon入門
- 20.1.4 Tachyon特性
- 20.1.3 Tachyon設(shè)計(jì)原理
- 20.1.2 HDFS和Tachyon
- 20.1.1 文件系統(tǒng)概述
- 20.1 Tachyon文件系統(tǒng)
- 第20章 Spark Tachyon實(shí)戰(zhàn)
- 19.5 本章小結(jié)
- 19.4.3 使用NamedRDD
- 19.4.2 計(jì)算架構(gòu)
- 19.4.1 項(xiàng)目需求
- 19.4 使用場景:用戶屬性分布計(jì)算
- 19.3.2 一些常見的問題
- 19.3.1 創(chuàng)建步驟
- 19.3 Spark-jobserver程序?qū)崙?zhàn)
- 19.2.2 體驗(yàn)
- 19.2.1 編譯及部署
- 19.2 編譯、部署及體驗(yàn)
- 19.1 Spark-jobserver是什么
- 第19章 Spark-jobserver實(shí)踐
- 擴(kuò)展篇
- 18.6 本章小結(jié)
- 18.5 流水線優(yōu)化
- 18.4.2 累加器
- 18.4.1 廣播變量
- 18.4 共享變量
- 18.3 緩存
- 18.2 序列化數(shù)據(jù)
- 18.1.3 Cache壓縮
- 18.1.2 lzo壓縮處理
- 18.1.1 輸入采用大文件
- 18.1 文件的優(yōu)化
- 第18章 性能調(diào)優(yōu)
- 17.4 本章小結(jié)
- 17.3.2 其他工具
- 17.3.1 Metrics工具
- 17.3 監(jiān)控工具
- 17.2.2 配置spark-server
- 17.2.1 使用spark-server的原因
- 17.2 Spark UI歷史監(jiān)控
- 17.1 Web界面
- 第17章 監(jiān)控管理
- 16.4 本章小結(jié)
- 16.3 Shuffle數(shù)據(jù)持久化
- 16.2.2 存儲層
- 16.2.1 通信層
- 16.2 Storage模塊
- 16.1.4 網(wǎng)絡(luò)和CPU
- 16.1.3 內(nèi)存
- 16.1.2 本地磁盤
- 16.1.1 存儲系統(tǒng)
- 16.1 硬件環(huán)境
- 第16章 存儲管理
- 15.3 本章小結(jié)
- 15.2.4 Job的生與死
- 15.2.3 調(diào)度模塊
- 15.2.2 Job調(diào)度流程
- 15.2.1 調(diào)度池
- 15.2 調(diào)度器
- 15.1.2 應(yīng)用程序中的調(diào)度
- 15.1.1 應(yīng)用程序間的調(diào)度
- 15.1 調(diào)度概述
- 第15章 調(diào)度管理
- 高級篇
- 14.4 本章小結(jié)
- 14.3.3 代碼提交命令
- 14.3.2 系統(tǒng)實(shí)現(xiàn)
- 14.3.1 系統(tǒng)設(shè)計(jì)
- 14.3 基于PageRank的二級鄰居獲取
- 14.2 PageRank算法基于Spark的實(shí)現(xiàn)
- 14.1.2 深入理解PageRank
- 14.1.1 初步理解PageRank
- 14.1 理解PageRank
- 第14章 獲取二級鄰居關(guān)系圖
- 13.5 本章小結(jié)
- 13.4.2 計(jì)算AUC
- 13.4.1 訓(xùn)練模型
- 13.4 實(shí)現(xiàn)案例
- 13.3.3 算法效果評估
- 13.3.2 優(yōu)化方法
- 13.3.1 邏輯回歸分類器
- 13.3 MLlib中LR模型源碼介紹
- 13.2 數(shù)據(jù)格式
- 13.1 邏輯回歸簡介
- 第13章 在Spark上訓(xùn)練LR模型
- 12.5 本章小結(jié)
- 12.4 結(jié)果驗(yàn)證
- 12.3.4 數(shù)據(jù)表現(xiàn)
- 12.3.3 離線數(shù)據(jù)處理
- 12.3.2 數(shù)據(jù)采集
- 12.3.1 Kafka集群
- 12.3 代碼實(shí)現(xiàn)
- 12.2.2 模塊架構(gòu)
- 12.2.1 總體架構(gòu)
- 12.2 應(yīng)用架構(gòu)
- 12.1.2 實(shí)現(xiàn)目標(biāo)
- 12.1.1 業(yè)務(wù)介紹
- 12.1 業(yè)務(wù)背景
- 第12章 系統(tǒng)資源分析平臺
- 11.5 本章小結(jié)
- 11.4.4 離線報(bào)表分析
- 11.4.3 業(yè)務(wù)關(guān)聯(lián)分析
- 11.4.2 流量、性能的統(tǒng)計(jì)分析
- 11.4.1 流量、性能的實(shí)時(shí)分析
- 11.4 業(yè)務(wù)實(shí)現(xiàn)
- 11.3 應(yīng)用架構(gòu)
- 11.2 數(shù)據(jù)格式
- 11.1 背景
- 第11章 大數(shù)據(jù)分析系統(tǒng)
- 實(shí)戰(zhàn)篇
- 10.4 本章小結(jié)
- 10.3.4 SparkR的DataFrame
- 10.3.3 R的DataFrame操作方法
- 10.3.2 SparkR示例程序
- 10.3.1 運(yùn)行SparkR
- 10.3 SparkR的運(yùn)行與應(yīng)用示例
- 10.2.2 SparkR的安裝
- 10.2.1 安裝R語言與rJava
- 10.2 安裝SparkR
- 10.1.4 R語言與其他語言的通信
- 10.1.3 R語言介紹
- 10.1.2 SparkR的工作原理
- 10.1.1 SparkR介紹
- 10.1 概述
- 第10章 SparkR(R on Spark)
- 9.5 本章小結(jié)
- 9.4.3 能量傳播模型
- 9.4.2 多圖合并工具
- 9.4.1 圖譜體檢平臺
- 9.4 應(yīng)用場景
- 9.3.2 常用圖算法
- 9.3.1 GraphX的圖操作
- 9.3 GraphX編程
- 9.2 Spark GraphX架構(gòu)
- 9.1 概述
- 第9章 GraphX圖計(jì)算框架與應(yīng)用
- 8.5 本章小結(jié)
- 8.4.2 算法庫與實(shí)例
- 8.4.1 主要概念
- 8.4 ML庫
- 8.3.2 MLlib的算法庫與實(shí)例
- 8.3.1 MLlib數(shù)據(jù)類型
- 8.3 Spark MLlib庫
- 8.2 Spark MLlib介紹
- 8.1.2 機(jī)器學(xué)習(xí)算法
- 8.1.1 機(jī)器學(xué)習(xí)分類
- 8.1 機(jī)器學(xué)習(xí)概述
- 第8章 Spark MLlib與機(jī)器學(xué)習(xí)
- 7.6 本章小結(jié)
- 7.5 一個(gè)例子
- 7.4.3 輸出操作
- 7.4.2 基于Receiver的輸入源
- 7.4.1 文件輸入源
- 7.4 容錯(cuò)處理
- 7.3.3 優(yōu)化內(nèi)存使用
- 7.3.2 設(shè)置合適的批次大小
- 7.3.1 優(yōu)化運(yùn)行時(shí)間
- 7.3 性能調(diào)優(yōu)
- 7.2.6 檢查點(diǎn)
- 7.2.5 緩存及持久化
- 7.2.4 DStream輸出操作
- 7.2.3 DStream狀態(tài)操作
- 7.2.2 DStream轉(zhuǎn)換操作
- 7.2.1 Input DStream
- 7.2 DStream操作
- 7.1.2 DStream編程模型
- 7.1.1 Spark Streaming工作原理
- 7.1 基礎(chǔ)知識
- 第7章 深入了解Spark Streaming
- 6.7 本章小結(jié)
- 6.6 數(shù)據(jù)類型
- 6.5.3 增加并行度
- 6.5.2 調(diào)優(yōu)參數(shù)
- 6.5.1 緩存數(shù)據(jù)
- 6.5 性能調(diào)優(yōu)
- 6.4.2 運(yùn)行 Spark SQL CLI
- 6.4.1 運(yùn)行Thrift JDBC/ODBC 服務(wù)
- 6.4 分布式的SQL Engine
- 6.3.6 多數(shù)據(jù)源整合查詢的小例子
- 6.3.5 通過JDBC 連接數(shù)據(jù)庫
- 6.3.4 Hive 表
- 6.3.3 JSON 數(shù)據(jù)集
- 6.3.2 Parquet 文件
- 6.3.1 加載保存操作
- 6.3 數(shù)據(jù)源
- 6.2.4 RDD轉(zhuǎn)化為DataFrame
- 6.2.3 DataFrame 操作
- 6.2.2 創(chuàng)建DataFrame
- 6.2.1 DataFrame和RDD的區(qū)別
- 6.2 DataFrame
- 6.1.4 Spark SQL 性能
- 6.1.3 Spark SQL 特點(diǎn)
- 6.1.2 Spark SQL 架構(gòu)
- 6.1.1 Spark SQL 發(fā)展
- 6.1 概述
- 第6章 Spark SQL與DataFrame
- 5.5 本章小結(jié)
- 5.4 應(yīng)用程序運(yùn)行實(shí)例
- 5.3.3 調(diào)度執(zhí)行DAG圖
- 5.3.2 應(yīng)用程序轉(zhuǎn)換成DAG
- 5.3.1 構(gòu)建應(yīng)用程序運(yùn)行時(shí)環(huán)境
- 5.3 運(yùn)行時(shí)環(huán)境
- 5.2.3 作業(yè)事件流和調(diào)度分析
- 5.2.2 基于YARN模式的Spark架構(gòu)
- 5.2.1 基于Standalone模式的Spark架構(gòu)
- 5.2 作業(yè)執(zhí)行流程
- 5.1.3 DAG圖
- 5.1.2 RDD視圖
- 5.1.1 Spark組件
- 5.1 基本概念
- 第5章 作業(yè)執(zhí)行解析
- 4.5 本章小結(jié)
- 4.4.2 累加器
- 4.4.1 廣播變量
- 4.4 共享變量
- 4.3.3 控制操作
- 4.3.2 執(zhí)行操作
- 4.3.1 轉(zhuǎn)換操作
- 4.3 RDD操作
- 4.2.2 存儲創(chuàng)建RDD
- 4.2.1 集合(數(shù)組)創(chuàng)建RDD
- 4.2 創(chuàng)建RDD
- 4.1.2 RDD依賴
- 4.1.1 RDD特征
- 4.1 RDD介紹
- 第4章 編程模型
- 3.4 本章小結(jié)
- 3.3.3 編譯并提交應(yīng)用程序
- 3.3.2 編寫簡單應(yīng)用程序
- 3.3.1 創(chuàng)建SparkContext對象
- 3.3 獨(dú)立應(yīng)用程序編程
- 3.2.3 構(gòu)建Spark的IntelliJ IDEA開發(fā)環(huán)境
- 3.2.2 構(gòu)建Spark的Eclipse開發(fā)環(huán)境
- 3.2.1 準(zhǔn)備環(huán)境
- 3.2 構(gòu)建Spark的開發(fā)環(huán)境
- 3.1.5 RDD緩存
- 3.1.4 簡單RDD操作應(yīng)用
- 3.1.3 簡單RDD操作
- 3.1.2 加載text文件
- 3.1.1 啟動(dòng)Spark Shell
- 3.1 使用Spark Shell編寫程序
- 第3章 Spark程序開發(fā)
- 2.4 本章小結(jié)
- 2.3.4 應(yīng)用程序提交和參數(shù)傳遞
- 2.3.3 YARN模式運(yùn)行Spark
- 2.3.2 Standalone模式運(yùn)行Spark應(yīng)用程序
- 2.3.1 Local模式運(yùn)行Spark應(yīng)用程序
- 2.3 運(yùn)行Spark應(yīng)用程序
- 2.2.3 YARN模式部署
- 2.2.2 Standalone模式部署
- 2.2.1 Local模式部署
- 2.2 Spark部署
- 2.1.3 集群部署概述
- 2.1.2 編譯Spark版本
- 2.1.1 下載Spark
- 2.1 部署準(zhǔn)備
- 第2章 Spark部署和運(yùn)行
- 1.3 本章小結(jié)
- 1.2.5 SparkR
- 1.2.4 GraphX
- 1.2.3 Spark MLlib和ML
- 1.2.2 Spark Streaming
- 1.2.1 Spark SQL和DataFrame
- 1.2 Spark的重要擴(kuò)展
- 1.1.4 Spark應(yīng)用場景
- 1.1.3 Spark的特點(diǎn)
- 1.1.2 Spark大數(shù)據(jù)處理框架
- 1.1.1 概述
- 1.1 什么是Spark
- 第1章 Spark簡介
- 基礎(chǔ)篇
- 前言
- 版權(quán)信息
- 封面
- 封面
- 版權(quán)信息
- 前言
- 基礎(chǔ)篇
- 第1章 Spark簡介
- 1.1 什么是Spark
- 1.1.1 概述
- 1.1.2 Spark大數(shù)據(jù)處理框架
- 1.1.3 Spark的特點(diǎn)
- 1.1.4 Spark應(yīng)用場景
- 1.2 Spark的重要擴(kuò)展
- 1.2.1 Spark SQL和DataFrame
- 1.2.2 Spark Streaming
- 1.2.3 Spark MLlib和ML
- 1.2.4 GraphX
- 1.2.5 SparkR
- 1.3 本章小結(jié)
- 第2章 Spark部署和運(yùn)行
- 2.1 部署準(zhǔn)備
- 2.1.1 下載Spark
- 2.1.2 編譯Spark版本
- 2.1.3 集群部署概述
- 2.2 Spark部署
- 2.2.1 Local模式部署
- 2.2.2 Standalone模式部署
- 2.2.3 YARN模式部署
- 2.3 運(yùn)行Spark應(yīng)用程序
- 2.3.1 Local模式運(yùn)行Spark應(yīng)用程序
- 2.3.2 Standalone模式運(yùn)行Spark應(yīng)用程序
- 2.3.3 YARN模式運(yùn)行Spark
- 2.3.4 應(yīng)用程序提交和參數(shù)傳遞
- 2.4 本章小結(jié)
- 第3章 Spark程序開發(fā)
- 3.1 使用Spark Shell編寫程序
- 3.1.1 啟動(dòng)Spark Shell
- 3.1.2 加載text文件
- 3.1.3 簡單RDD操作
- 3.1.4 簡單RDD操作應(yīng)用
- 3.1.5 RDD緩存
- 3.2 構(gòu)建Spark的開發(fā)環(huán)境
- 3.2.1 準(zhǔn)備環(huán)境
- 3.2.2 構(gòu)建Spark的Eclipse開發(fā)環(huán)境
- 3.2.3 構(gòu)建Spark的IntelliJ IDEA開發(fā)環(huán)境
- 3.3 獨(dú)立應(yīng)用程序編程
- 3.3.1 創(chuàng)建SparkContext對象
- 3.3.2 編寫簡單應(yīng)用程序
- 3.3.3 編譯并提交應(yīng)用程序
- 3.4 本章小結(jié)
- 第4章 編程模型
- 4.1 RDD介紹
- 4.1.1 RDD特征
- 4.1.2 RDD依賴
- 4.2 創(chuàng)建RDD
- 4.2.1 集合(數(shù)組)創(chuàng)建RDD
- 4.2.2 存儲創(chuàng)建RDD
- 4.3 RDD操作
- 4.3.1 轉(zhuǎn)換操作
- 4.3.2 執(zhí)行操作
- 4.3.3 控制操作
- 4.4 共享變量
- 4.4.1 廣播變量
- 4.4.2 累加器
- 4.5 本章小結(jié)
- 第5章 作業(yè)執(zhí)行解析
- 5.1 基本概念
- 5.1.1 Spark組件
- 5.1.2 RDD視圖
- 5.1.3 DAG圖
- 5.2 作業(yè)執(zhí)行流程
- 5.2.1 基于Standalone模式的Spark架構(gòu)
- 5.2.2 基于YARN模式的Spark架構(gòu)
- 5.2.3 作業(yè)事件流和調(diào)度分析
- 5.3 運(yùn)行時(shí)環(huán)境
- 5.3.1 構(gòu)建應(yīng)用程序運(yùn)行時(shí)環(huán)境
- 5.3.2 應(yīng)用程序轉(zhuǎn)換成DAG
- 5.3.3 調(diào)度執(zhí)行DAG圖
- 5.4 應(yīng)用程序運(yùn)行實(shí)例
- 5.5 本章小結(jié)
- 第6章 Spark SQL與DataFrame
- 6.1 概述
- 6.1.1 Spark SQL 發(fā)展
- 6.1.2 Spark SQL 架構(gòu)
- 6.1.3 Spark SQL 特點(diǎn)
- 6.1.4 Spark SQL 性能
- 6.2 DataFrame
- 6.2.1 DataFrame和RDD的區(qū)別
- 6.2.2 創(chuàng)建DataFrame
- 6.2.3 DataFrame 操作
- 6.2.4 RDD轉(zhuǎn)化為DataFrame
- 6.3 數(shù)據(jù)源
- 6.3.1 加載保存操作
- 6.3.2 Parquet 文件
- 6.3.3 JSON 數(shù)據(jù)集
- 6.3.4 Hive 表
- 6.3.5 通過JDBC 連接數(shù)據(jù)庫
- 6.3.6 多數(shù)據(jù)源整合查詢的小例子
- 6.4 分布式的SQL Engine
- 6.4.1 運(yùn)行Thrift JDBC/ODBC 服務(wù)
- 6.4.2 運(yùn)行 Spark SQL CLI
- 6.5 性能調(diào)優(yōu)
- 6.5.1 緩存數(shù)據(jù)
- 6.5.2 調(diào)優(yōu)參數(shù)
- 6.5.3 增加并行度
- 6.6 數(shù)據(jù)類型
- 6.7 本章小結(jié)
- 第7章 深入了解Spark Streaming
- 7.1 基礎(chǔ)知識
- 7.1.1 Spark Streaming工作原理
- 7.1.2 DStream編程模型
- 7.2 DStream操作
- 7.2.1 Input DStream
- 7.2.2 DStream轉(zhuǎn)換操作
- 7.2.3 DStream狀態(tài)操作
- 7.2.4 DStream輸出操作
- 7.2.5 緩存及持久化
- 7.2.6 檢查點(diǎn)
- 7.3 性能調(diào)優(yōu)
- 7.3.1 優(yōu)化運(yùn)行時(shí)間
- 7.3.2 設(shè)置合適的批次大小
- 7.3.3 優(yōu)化內(nèi)存使用
- 7.4 容錯(cuò)處理
- 7.4.1 文件輸入源
- 7.4.2 基于Receiver的輸入源
- 7.4.3 輸出操作
- 7.5 一個(gè)例子
- 7.6 本章小結(jié)
- 第8章 Spark MLlib與機(jī)器學(xué)習(xí)
- 8.1 機(jī)器學(xué)習(xí)概述
- 8.1.1 機(jī)器學(xué)習(xí)分類
- 8.1.2 機(jī)器學(xué)習(xí)算法
- 8.2 Spark MLlib介紹
- 8.3 Spark MLlib庫
- 8.3.1 MLlib數(shù)據(jù)類型
- 8.3.2 MLlib的算法庫與實(shí)例
- 8.4 ML庫
- 8.4.1 主要概念
- 8.4.2 算法庫與實(shí)例
- 8.5 本章小結(jié)
- 第9章 GraphX圖計(jì)算框架與應(yīng)用
- 9.1 概述
- 9.2 Spark GraphX架構(gòu)
- 9.3 GraphX編程
- 9.3.1 GraphX的圖操作
- 9.3.2 常用圖算法
- 9.4 應(yīng)用場景
- 9.4.1 圖譜體檢平臺
- 9.4.2 多圖合并工具
- 9.4.3 能量傳播模型
- 9.5 本章小結(jié)
- 第10章 SparkR(R on Spark)
- 10.1 概述
- 10.1.1 SparkR介紹
- 10.1.2 SparkR的工作原理
- 10.1.3 R語言介紹
- 10.1.4 R語言與其他語言的通信
- 10.2 安裝SparkR
- 10.2.1 安裝R語言與rJava
- 10.2.2 SparkR的安裝
- 10.3 SparkR的運(yùn)行與應(yīng)用示例
- 10.3.1 運(yùn)行SparkR
- 10.3.2 SparkR示例程序
- 10.3.3 R的DataFrame操作方法
- 10.3.4 SparkR的DataFrame
- 10.4 本章小結(jié)
- 實(shí)戰(zhàn)篇
- 第11章 大數(shù)據(jù)分析系統(tǒng)
- 11.1 背景
- 11.2 數(shù)據(jù)格式
- 11.3 應(yīng)用架構(gòu)
- 11.4 業(yè)務(wù)實(shí)現(xiàn)
- 11.4.1 流量、性能的實(shí)時(shí)分析
- 11.4.2 流量、性能的統(tǒng)計(jì)分析
- 11.4.3 業(yè)務(wù)關(guān)聯(lián)分析
- 11.4.4 離線報(bào)表分析
- 11.5 本章小結(jié)
- 第12章 系統(tǒng)資源分析平臺
- 12.1 業(yè)務(wù)背景
- 12.1.1 業(yè)務(wù)介紹
- 12.1.2 實(shí)現(xiàn)目標(biāo)
- 12.2 應(yīng)用架構(gòu)
- 12.2.1 總體架構(gòu)
- 12.2.2 模塊架構(gòu)
- 12.3 代碼實(shí)現(xiàn)
- 12.3.1 Kafka集群
- 12.3.2 數(shù)據(jù)采集
- 12.3.3 離線數(shù)據(jù)處理
- 12.3.4 數(shù)據(jù)表現(xiàn)
- 12.4 結(jié)果驗(yàn)證
- 12.5 本章小結(jié)
- 第13章 在Spark上訓(xùn)練LR模型
- 13.1 邏輯回歸簡介
- 13.2 數(shù)據(jù)格式
- 13.3 MLlib中LR模型源碼介紹
- 13.3.1 邏輯回歸分類器
- 13.3.2 優(yōu)化方法
- 13.3.3 算法效果評估
- 13.4 實(shí)現(xiàn)案例
- 13.4.1 訓(xùn)練模型
- 13.4.2 計(jì)算AUC
- 13.5 本章小結(jié)
- 第14章 獲取二級鄰居關(guān)系圖
- 14.1 理解PageRank
- 14.1.1 初步理解PageRank
- 14.1.2 深入理解PageRank
- 14.2 PageRank算法基于Spark的實(shí)現(xiàn)
- 14.3 基于PageRank的二級鄰居獲取
- 14.3.1 系統(tǒng)設(shè)計(jì)
- 14.3.2 系統(tǒng)實(shí)現(xiàn)
- 14.3.3 代碼提交命令
- 14.4 本章小結(jié)
- 高級篇
- 第15章 調(diào)度管理
- 15.1 調(diào)度概述
- 15.1.1 應(yīng)用程序間的調(diào)度
- 15.1.2 應(yīng)用程序中的調(diào)度
- 15.2 調(diào)度器
- 15.2.1 調(diào)度池
- 15.2.2 Job調(diào)度流程
- 15.2.3 調(diào)度模塊
- 15.2.4 Job的生與死
- 15.3 本章小結(jié)
- 第16章 存儲管理
- 16.1 硬件環(huán)境
- 16.1.1 存儲系統(tǒng)
- 16.1.2 本地磁盤
- 16.1.3 內(nèi)存
- 16.1.4 網(wǎng)絡(luò)和CPU
- 16.2 Storage模塊
- 16.2.1 通信層
- 16.2.2 存儲層
- 16.3 Shuffle數(shù)據(jù)持久化
- 16.4 本章小結(jié)
- 第17章 監(jiān)控管理
- 17.1 Web界面
- 17.2 Spark UI歷史監(jiān)控
- 17.2.1 使用spark-server的原因
- 17.2.2 配置spark-server
- 17.3 監(jiān)控工具
- 17.3.1 Metrics工具
- 17.3.2 其他工具
- 17.4 本章小結(jié)
- 第18章 性能調(diào)優(yōu)
- 18.1 文件的優(yōu)化
- 18.1.1 輸入采用大文件
- 18.1.2 lzo壓縮處理
- 18.1.3 Cache壓縮
- 18.2 序列化數(shù)據(jù)
- 18.3 緩存
- 18.4 共享變量
- 18.4.1 廣播變量
- 18.4.2 累加器
- 18.5 流水線優(yōu)化
- 18.6 本章小結(jié)
- 擴(kuò)展篇
- 第19章 Spark-jobserver實(shí)踐
- 19.1 Spark-jobserver是什么
- 19.2 編譯、部署及體驗(yàn)
- 19.2.1 編譯及部署
- 19.2.2 體驗(yàn)
- 19.3 Spark-jobserver程序?qū)崙?zhàn)
- 19.3.1 創(chuàng)建步驟
- 19.3.2 一些常見的問題
- 19.4 使用場景:用戶屬性分布計(jì)算
- 19.4.1 項(xiàng)目需求
- 19.4.2 計(jì)算架構(gòu)
- 19.4.3 使用NamedRDD
- 19.5 本章小結(jié)
- 第20章 Spark Tachyon實(shí)戰(zhàn)
- 20.1 Tachyon文件系統(tǒng)
- 20.1.1 文件系統(tǒng)概述
- 20.1.2 HDFS和Tachyon
- 20.1.3 Tachyon設(shè)計(jì)原理
- 20.1.4 Tachyon特性
- 20.2 Tachyon入門
- 20.2.1 Tachyon 部署
- 20.2.2 Tachyon API
- 20.2.3 在Spark上使用Tachyon
- 20.3 容錯(cuò)機(jī)制
- 20.4 本章小結(jié) 更新時(shí)間:2019-01-01 01:25:42