- Spark快速大數據分析(第2版)
- (美)朱爾斯·S. 達米吉 布魯克·韋尼希 丹尼·李 (印)泰瑟加塔·達斯
- 242字
- 2021-12-06 11:51:04
1.2.4 可擴展
Spark 的重心在于快速的分布式計算引擎,而不是存儲。和 Apache Hadoop 同時包含計算和存儲不同,Spark 解耦了計算和存儲。這意味著你可以用 Spark 讀取存儲在各種數據源(Apache Hadoop、Apache Cassandra、Apache HBase、MongoDB、Apache Hive、RDBMS 等)中的數據,并在內存中進行處理。你還可以擴展 Spark 的 DataFrameReader
和 DataFrameWriter
,以便將其他數據源(如 Apache Kafka、Kinesis、Azure 存儲、亞馬遜 S3)的數據讀取為 DataFrame 的邏輯數據抽象,以進行操作。
Spark 的生態系統日漸壯大,社區的開發人員維護著各種第三方 Spark 擴展包,如圖 1-2 所示。這個豐富的生態系統包括各種外部數據源的 Spark 連接器,以及性能監控工具等。

圖 1-2:Spark 的連接器生態