- 數字化轉型實踐:構建云原生大數據平臺
- 金鑫等編著
- 1296字
- 2024-03-22 19:17:15
前言
FOREWORD
作者多年來一直在微軟公司從事企業數字化轉型的布道與咨詢工作,深刻地體會到數字化轉型正在深刻地影響著我們生活的方方面面。例如,在物流行業中,對貨物流轉、車輛追蹤、倉儲等環節產生的數據進行歸納、分類、整合、分析和提煉,可以有效提升物流的整體服務水平。在保險行業中,基于企業內外部運營、管理和交互數據分析,可以全方位統計和預測企業經營和管理績效;基于保險保單和客戶交互數據進行建模,可以快速分析和預測市場風險、操作風險等。可以說,數字化轉型使企業經營決策模式發生了轉變,正在驅動著行業變革,不斷衍生出新的商機和發展契機。
在整個數字化轉型中,數據是驅動轉型的核心力量。特別是近年來,數據蘊藏的巨大潛力和能量在各行各業中綻放光彩,為流程、組織、甚至社會本身的轉型激發了更多新的方式,整個數據行業的技術基礎和實踐能力不斷提升。本書聚焦數字化轉型中數據的全生命周期管理與應用,幫助讀者了解如何通過云原生技術將數據存儲、數據引入、批量數據處理、實時數據處理、數據倉庫、數據可視化和機器學習等核心要素綜合起來,構建高效的數據服務平臺。本書內容分為8章。
第1章為數字化轉型與數據技術,介紹了什么是數字化轉型及其中的數據價值,闡述了從數據庫到數據倉庫,從大數據到數據湖的技術發展進程。
第2章為數據存儲,介紹了數據存儲發展過程中各類文件系統的特點及使用場景,闡述了云原生存儲的優勢及其在現代大數據平臺中的關鍵作用,演示了如何在各類大數據平臺中對云存儲進行訪問。
第3章為數據引入,介紹了數據引入的相關知識,并以數據工廠為例,展示了如何使用云原生服務創建數據驅動型工作流,以對不同數據源進行訪問,并將數據從本地移動/復制到數據湖存儲中。
第4章為批量數據處理,介紹了數據處理的挑戰和相關技術,展示了如何通過云原生數據處理技術,對數據進行批量處理等。
第5章為實時數據處理,從實時數據產生和流向的各環節出發,介紹了當前前沿的消息隊列和實時數據處理引擎,展示了如何使用云原生服務構建實時數據處理系統。
第6章為數據倉庫,梳理了當前主流的云原生數據倉庫服務,并以Synapse Analytics為例,介紹了其架構、資源和負載管理,演示了如何快速將數據從數據湖存儲導入到Synapse Analytics中,并展示了其無服務器架構、Spark引擎等特性。
第7章為數據可視化,介紹了目前市場上比較流行的可視化工具,并以Power BI為例,演示了如何創建、發布和共享報表,以及對數據倉庫中的數據進行可視化。
第8章為機器學習,介紹了機器學習的算法類型和使用場景,闡述了機器學習的挑戰和云原生平臺的優勢,深入展示了云原生機器學習平臺中的機器學習設計器和自動化機器學習等功能。
本書的目標是既能讓初學者快速熟悉數據技術的核心內容和流程,迅速上手;也能幫助已經熟悉數據技術的人員通過云原生服務進一步優化解決方案,降本增效。
感謝家人對我們利用業余時間編寫本書的理解,在漫長的編寫過程中始終給予關愛與支持,也感謝微軟諸多同事和電子工業出版社編輯王群的鼓勵與支持,本書的成書與他們密不可分。
本書所用數據集和相關代碼請在https://github.com/builddigittransform/cloudnativedatademo下載。
由于作者學識有限,時間倉促,書中難免有錯誤或疏漏之處,懇請廣大讀者批評指正。
金鑫 武帥
2022年5月于上海