- Spark大數據商業實戰三部曲:內核解密|商業案例|性能調優
- 王家林
- 614字
- 2019-12-12 17:30:05
11.1 Spark組件綜合應用
Apache Spark生態系統的外部軟件項目,Spark第三方項目組件的綜合應用如下。
1.spark-packages.org
spark-packages.org是一個外部社區管理的第三方庫,是附加組件和與Apache Spark一起使用的應用程序的列表。只要有一個GitHub倉庫,就可以添加一個包。
2.基礎項目
Spark Job Server:用于在同一個群集上管理和提交Spark作業的REST接口。
SparkR:Spark的R前端。
MLbase:Spark機器學習研究項目。
Apache Mesos:支持運行Spark的群集管理系統。
Alluxio(Tachyon):支持運行Spark的內存速度虛擬分布式存儲系統。
Spark Cassandra連接器:輕松將Cassandra數據加載到Spark和Spark SQL中;來自Datastax。
FiloDB:一個Spark集成分析及列數據庫,基于內存能夠進行亞秒級并發查詢。
ElasticSearch:Spark SQL集成。
Spark-Scalding:輕松過渡Cascading/Scalding代碼到Spark。
Zeppelin:類似于IPython,還有ISPark和Spark Notebook。
IBM Spectrum Spark:集群管理軟件與Spark集成。
EclairJS:使Node.js開發人員可以對Spark進行編碼,數據科學家可以在Jupyter中使用Javascript。
SnappyData:與同一個JVM集成的開源OLTP + OLAP數據庫。
GeoSpark:地理空間RDD和連接。
Spark Cluster:部署OpenStack工具。
3.使用Spark的應用程序
Apache Mahout:以前運行在Hadoop MapReduce上,Mahout已經轉向使用Spark作為后端。
Apache MRQL:用于大規模,分布式數據分析的查詢處理和優化系統,構建在Apache Hadoop、Hama和Spark上。
BlinkDB:一個大規模并行的大致查詢引擎,建立在Shark和Spark上。
Spindle:基于Spark / Parquet的網絡分析查詢引擎。
Spark Spatial:Spark的空間連接和處理。
Thunderain:是一個使用Spark和Shark的實時分析處理實例。
DF from Ayasdi:類似Pandas的數據框架實現。
Oryx:Apache Spark上的Oryx Lambda架構,Apache Kafka用于實時大規模機器學習。
ADAM:使用Apache Spark加載,轉換和分析基因組數據的框架和CLI。
4.附加語言綁定
C#/ .NET: Spark的C# API接口。
Clojure:Spark的Clojure API接口。
Groovy:Groovy REPL支持Spark。
- Word 2000、Excel 2000、PowerPoint 2000上機指導與練習
- 數據運營之路:掘金數據化時代
- 嵌入式Linux上的C語言編程實踐
- 快學Flash動畫百例
- 數據庫原理與應用技術
- 21天學通C#
- 大數據時代
- Linux:Powerful Server Administration
- Mastering pfSense
- 水晶石影視動畫精粹:After Effects & Nuke 影視后期合成
- Apache源代碼全景分析(第1卷):體系結構與核心模塊
- 空間機器人
- 工業機器人入門實用教程
- JRuby語言實戰技術
- Hands-On Business Intelligence with Qlik Sense