官术网_书友最值得收藏!

11.1 Spark組件綜合應用

Apache Spark生態系統的外部軟件項目,Spark第三方項目組件的綜合應用如下。

1.spark-packages.org

spark-packages.org是一個外部社區管理的第三方庫,是附加組件和與Apache Spark一起使用的應用程序的列表。只要有一個GitHub倉庫,就可以添加一個包。

2.基礎項目

 Spark Job Server:用于在同一個群集上管理和提交Spark作業的REST接口。

 SparkR:Spark的R前端。

 MLbase:Spark機器學習研究項目。

 Apache Mesos:支持運行Spark的群集管理系統。

 Alluxio(Tachyon):支持運行Spark的內存速度虛擬分布式存儲系統。

 Spark Cassandra連接器:輕松將Cassandra數據加載到Spark和Spark SQL中;來自Datastax。

 FiloDB:一個Spark集成分析及列數據庫,基于內存能夠進行亞秒級并發查詢。

 ElasticSearch:Spark SQL集成。

 Spark-Scalding:輕松過渡Cascading/Scalding代碼到Spark。

 Zeppelin:類似于IPython,還有ISPark和Spark Notebook。

 IBM Spectrum Spark:集群管理軟件與Spark集成。

 EclairJS:使Node.js開發人員可以對Spark進行編碼,數據科學家可以在Jupyter中使用Javascript。

 SnappyData:與同一個JVM集成的開源OLTP + OLAP數據庫。

 GeoSpark:地理空間RDD和連接。

 Spark Cluster:部署OpenStack工具。

3.使用Spark的應用程序

 Apache Mahout:以前運行在Hadoop MapReduce上,Mahout已經轉向使用Spark作為后端。

 Apache MRQL:用于大規模,分布式數據分析的查詢處理和優化系統,構建在Apache Hadoop、Hama和Spark上。

 BlinkDB:一個大規模并行的大致查詢引擎,建立在Shark和Spark上。

 Spindle:基于Spark / Parquet的網絡分析查詢引擎。

 Spark Spatial:Spark的空間連接和處理。

 Thunderain:是一個使用Spark和Shark的實時分析處理實例。

 DF from Ayasdi:類似Pandas的數據框架實現。

 Oryx:Apache Spark上的Oryx Lambda架構,Apache Kafka用于實時大規模機器學習。

 ADAM:使用Apache Spark加載,轉換和分析基因組數據的框架和CLI。

4.附加語言綁定

 C#/ .NET: Spark的C# API接口。

 Clojure:Spark的Clojure API接口。

 Groovy:Groovy REPL支持Spark。

主站蜘蛛池模板: 平顶山市| 德保县| 平罗县| 榆社县| 北流市| 绥滨县| 平武县| 扎鲁特旗| 都江堰市| 漳浦县| 麦盖提县| 梁平县| 陵川县| 宁远县| 宝丰县| 阳山县| 陕西省| 昌黎县| 石城县| 晋中市| 任丘市| 凤城市| 壶关县| 井研县| 海兴县| 社旗县| 汉源县| 介休市| 石景山区| 平遥县| 茌平县| 成武县| 海阳市| 靖边县| 赫章县| 铜梁县| 凤城市| 金华市| 道真| 高尔夫| 武定县|