- PySpark大數據分析與應用
- 戴剛 張良均主編
- 469字
- 2025-01-07 16:58:54
第1章 PySpark大數據分析概述
在當今時代,隨著計算機、互聯網、物聯網等技術的迅速發展,數據的產生與獲取均呈幾何級數、爆炸式增長,大數據概念應運而生。大數據是繼云計算、物聯網之后信息技術產業領域的又一重大技術革新,被譽為“第三次浪潮的華彩樂章”,現已被廣泛應用至各行各業和人們生活的方方面面。如何對大數據進行分析、挖掘并獲取有價值的信息,同時推進數字中國建設,越來越受到各行各業的高度重視。
本章首先介紹大數據分析概述,從大數據的概念引入對大數據分析的學習,包括大數據分析的概念、流程、應用場景,并介紹大數據技術體系;然后重點介紹Spark大數據技術框架相關知識,包括Spark簡介、Spark特點、Spark運行架構與流程、Spark RDD和Spark生態圈;最后介紹PySpark大數據分析。
學習目標
(1)了解大數據分析的概念與流程。
(2)了解大數據技術體系。
(3)了解Spark大數據技術框架。
(4)熟悉Spark RDD的概念與常見算子。
(5)了解PySpark的由來、優勢及主要模塊。
素質目標
(1)通過學習大數據分析,培養數據分析思維。
(2)通過學習大數據技術技能,培養終身學習的素質。
(3)通過理解RDD的基本設計思想,培養團結協作的精神。