官术网_书友最值得收藏!

1.2.4 可擴展

Spark 的重心在于快速的分布式計算引擎,而不是存儲。和 Apache Hadoop 同時包含計算和存儲不同,Spark 解耦了計算和存儲。這意味著你可以用 Spark 讀取存儲在各種數據源(Apache Hadoop、Apache Cassandra、Apache HBase、MongoDB、Apache Hive、RDBMS 等)中的數據,并在內存中進行處理。你還可以擴展 Spark 的 DataFrameReaderDataFrameWriter,以便將其他數據源(如 Apache Kafka、Kinesis、Azure 存儲、亞馬遜 S3)的數據讀取為 DataFrame 的邏輯數據抽象,以進行操作。

Spark 的生態系統日漸壯大,社區的開發人員維護著各種第三方 Spark 擴展包,如圖 1-2 所示。這個豐富的生態系統包括各種外部數據源的 Spark 連接器,以及性能監控工具等。

圖 1-2:Spark 的連接器生態

主站蜘蛛池模板: 彩票| 赤壁市| 高安市| 永昌县| 郸城县| 鹰潭市| 外汇| 郎溪县| 富源县| 资溪县| 琼结县| 叙永县| 建阳市| 巍山| 乌鲁木齐市| 大竹县| 屯昌县| 道孚县| 股票| 娱乐| 大姚县| 定结县| 永定县| 都昌县| 都匀市| 朝阳县| 襄城县| 荆州市| 广水市| 浦江县| 阿拉善盟| 宜良县| 永嘉县| 华安县| 武川县| 邵武市| 游戏| 吉林省| 紫金县| 天津市| 长汀县|