- Spark大數據商業實戰三部曲:內核解密|商業案例|性能調優
- 王家林
- 361字
- 2019-12-12 17:29:51
第2章
Spark 2.2技術及原理
Apache官方網站于2017年7月11日發布了Spark Release 2.2.0版本。Apache Spark 2.2.0版本是Spark 2.2系列上的第3個版本。Spark 2.2.0是Spark 2.2中第一個在生產環境可以使用的版本,對于Spark具有里程碑意義。Spark 2.2.0版本中,Structured Streaming的實驗性標記(Experimental Tag)已經被移除,此版本更多側重于系統的可用性(Usability)、穩定性(Stability)以及代碼的polish,解決了1100個tickets。此外,只要安裝pyspark,在Spark 2.2.0版本中,pyspark可用于pypi。Spark 2.2.0版本移除了對Java 7以及Hadoop 2.5及其之前版本的支持,移除了對Python 2.6的支持。
Apache Spark 2.2.0版本的一些新變化:
Core and Spark SQL核心和Spark SQL。
Structured Streaming結構化流。
MLlib機器學習。
SparkR SparkR計算。
GraphX圖計算。
Deprecations棄用。
Changes of behavior行為變化。
Known Issues已知的問題。
Credits貢獻者。
如無特殊說明,本書所有內容都基于最新最穩定的Spark 2.2.0版本的源碼編寫,為體現Spark源碼的演進過程,部分核心源碼在Spark 1.5.X、Spark 1.6.X、Spark 2.2.X源碼的基礎上,新增Spark 2.2.0版本的源碼,便于讀者系統比對、研習Spark源碼。
推薦閱讀
- 構建高質量的C#代碼
- 嵌入式系統應用
- 機器學習及應用(在線實驗+在線自測)
- 大數據專業英語
- 一本書玩轉數據分析(雙色圖解版)
- 空間傳感器網絡復雜區域智能監測技術
- 數據產品經理:解決方案與案例分析
- Photoshop CS3圖層、通道、蒙版深度剖析寶典
- CompTIA Network+ Certification Guide
- TensorFlow Reinforcement Learning Quick Start Guide
- 筆記本電腦維修90個精選實例
- Statistics for Data Science
- 網絡安全技術及應用
- Visual Studio 2010 (C#) Windows數據庫項目開發
- 一步步寫嵌入式操作系統