pg冰火双娇游戏攻略大全

書名： Spark快速大數據分析（第2版）
作者名： (美)朱爾斯·S. 達米吉布魯克·韋尼希丹尼·李 (印)泰瑟加塔·達斯
本章字數： 242字
更新時間： 2021-12-06 11:51:04

1.2.4　可擴展

Spark 的重心在于快速的分布式計算引擎，而不是存儲。和 Apache Hadoop 同時包含計算和存儲不同，Spark 解耦了計算和存儲。這意味著你可以用 Spark 讀取存儲在各種數據源（Apache Hadoop、Apache Cassandra、Apache HBase、MongoDB、Apache Hive、RDBMS 等）中的數據，并在內存中進行處理。你還可以擴展 Spark 的 DataFrameReader 和 DataFrameWriter，以便將其他數據源（如 Apache Kafka、Kinesis、Azure 存儲、亞馬遜 S3）的數據讀取為 DataFrame 的邏輯數據抽象，以進行操作。

Spark 的生態系統日漸壯大，社區的開發人員維護著各種第三方 Spark 擴展包，如圖 1-2 所示。這個豐富的生態系統包括各種外部數據源的 Spark 連接器，以及性能監控工具等。

圖 1-2：Spark 的連接器生態

官术网_书友最值得收藏!

Spark快速大數據分析（第2版）

1.2.4 可擴展

1.2.4　可擴展