- Spark分布式處理實戰
- 劉均 王璐烽主編
- 694字
- 2023-10-09 15:51:56
前言
寫作背景
黨中央、國務院高度重視大數據產業發展,推動實施國家大數據戰略。習近平總書記就推動大數據和數字經濟相關戰略部署、發展大數據產業多次做出重要指示。工業和信息化部會同相關部委建立大數據促進發展部際聯席會議制度,不斷完善政策體系,聚力打造大數據產品和服務體系,積極推進各領域大數據融合應用,培育發展大數據產業集聚高地。
黨的二十大報告指出“深入實施科教興國戰略、人才強國戰略、創新驅動發展戰略,開辟發展新領域新賽道,不斷塑造發展新動能新優勢”。移動互聯網與大數據技術的飛速發展,極大地改變了人們的生活方式,人們可以隨時隨地享受便捷的網絡服務,電子商務(簡稱“電商”)系統已經成為人們生活中不可缺少的消費方式。在多年的快速發展中,國內的大型電商平臺積累了海量的用戶行為日志、商品訂單等數據。大數據技術需要從海量的數據中對電商數據進行處理和分析,探索數據之間的內在規律,挖掘有價值的信息,以滿足用戶個性化和精準化的服務需求。
在眾多的大數據技術中,Apache Spark成為大數據分析的重要工具之一。Spark是加州大學伯克利分校的AMP實驗室開源的基于內存的并行計算框架。相對于基于Hadoop的MapReduce計算而言,Spark可以將中間計算結果保存在內存中,不再需要重復讀寫硬盤數據,大大提升了并行計算的效率,在大數據企業級項目中得到廣泛應用。
本書采用理論與實踐相結合的方式,以項目為主線來設計教學實踐環節,由淺入深地講解了Spark在企業級項目中的應用,尤其是大型電商平臺的數據分析項目中的應用。讀者在項目學習過程中可以邊學邊練,循序漸進。按照本書講解的步驟進行操作,讀者可以完成相應的學習任務。通過本書的學習,讀者可以逐步增強Spark大數據分析項目的實踐能力。
推薦閱讀
- 企業數字化創新引擎:企業級PaaS平臺HZERO
- 數據庫應用實戰
- 數據可視化:從小白到數據工程師的成長之路
- Python數據挖掘:入門、進階與實用案例分析
- 算法與數據中臺:基于Google、Facebook與微博實踐
- 數據要素五論:信息、權屬、價值、安全、交易
- Flutter Projects
- 貫通SQL Server 2008數據庫系統開發
- Spring MVC Beginner’s Guide
- Gideros Mobile Game Development
- Visual Studio 2012 and .NET 4.5 Expert Development Cookbook
- 云原生架構:從技術演進到最佳實踐
- 碼上行動:利用Python與ChatGPT高效搞定Excel數據分析
- Practical Convolutional Neural Networks
- MySQL核心技術手冊