官术网_书友最值得收藏!

前言PREFACE

實時數據分析一直是一個熱門話題,需要實時數據分析的場景也越來越多,如金融支付中的風控、基礎運維中的監控告警、實時大盤等,此外,AI模型也需要依據更為實時的聚合結果來達到很好的預測效果。

Apache Flink是下一代開源大數據處理引擎。它是一個分布式大數據處理引擎,可對有限數據流和無限數據流進行有狀態計算;可部署在各種集群環境中,對各種大小規模的數據進行快速計算。

Apache Flink已經被證明可以擴展到數千個內核和TB級的應用程序狀態,提供高吞吐量和低時延,并支持世界上一些要求很高的流處理應用程序。例如,Apache Flink在2019年阿里巴巴“雙11”場景中突破實時計算消息處理峰值,達到25億條/秒;2020年“雙11”當時的實時計算峰值達到了破紀錄的40億條/秒,數據量也達到了驚人的7TB/s,相當于一秒讀完500萬本《新華字典》!隨著2020年“雙11”阿里巴巴基于Flink實時計算場景的成功,毋庸置疑,Flink將會加速成為大廠主流的數據處理框架,最終化身為下一代大數據處理標準。

Apache Flink作為當前熱門的實時計算框架之一,是從業人員及希望進入大數據行業的人員必須學習和掌握的大數據技術之一,但是作為大數據的初學者,在學習Flink時通常會遇到以下幾個難題:

(1)缺少面向零基礎讀者的Flink入門教程。

(2)缺少系統化的Flink大數據教程。

(3)現有的Flink資料、教程或圖書較陳舊。

(4)官方全英文文檔難以閱讀和理解。

(5)缺少必要的數據集、可運行的實踐案例及學習平臺。

特別是Apache Flink從2019年被阿里巴巴收購以后,進入快速版本迭代期,不但版本更新快,而且API變化頻繁,筆者在應用和研究Apache Flink時,每當遇到Flink版本更新,就不得不花費大量精力重構已經完成的代碼。

為此,一方面是為了筆者自己能更系統、更及時地跟進Flink的演進和迭代;另一方面也是為了解決面向零基礎讀者學習Flink(及其他大數據技術)的入門難度,編寫了《Flink原理深入與編程實戰——Scala+Java(微課視頻版)》。筆者以為,本書具有以下幾個特點:

(1)面向零基礎讀者,知識點深淺適當,代碼完整易懂。

(2)內容全面系統,包括架構原理、開發環境及程序部署、流和批計算等,并特別包含了第7章“基于Flink構建批流一體數倉”和第8章“基于Flink和Iceberg數據湖構建實時數倉”內容。

(3)所有代碼均基于Flink 1.13.2。

(4)雙語實現,大部分示例、案例包含Scala和Java兩種語言版本的實現。

為降低讀者學習大數據技術的門檻,本書除提供了豐富的上機實踐操作和詳細的范例程序講解之外,作者還為購買和使用本書的讀者提供了搭建好的Hadoop和Flink大數據開發和學習環境。讀者既可以參照本書的講解自行搭建Hadoop和Flink環境,也可直接使用作者提供的開發和學習環境,快速開始對大數據和Flink的學習。

本書特別適合想要入門并深入掌握Apache Flink、流計算的讀者,需要大數據系統參考教材的老師及想要了解最新Flink版本應用的從業人員。

當然,由于筆者水平所限,書中難免存在疏漏,敬請讀者批評指正。

辛立偉

2022年10月

說明:文中需掃碼閱讀的請掃此付費二維碼。

主站蜘蛛池模板: 泾源县| 托里县| 莱西市| 台州市| 昌江| 永胜县| 无极县| 石阡县| 通渭县| 东莞市| 新津县| 合山市| 常熟市| 永安市| 松桃| 古浪县| 七台河市| 泾川县| 三门峡市| 台安县| 临江市| 星子县| 美姑县| 彭山县| 大姚县| 皋兰县| 长兴县| 凤山市| 秦安县| 胶州市| 灌云县| 武冈市| 田林县| 马尔康县| 灌云县| 大宁县| 阿克苏市| 琼结县| 正定县| 卓资县| 临桂县|