- Flink基礎(chǔ)教程
- (美)埃倫·弗里德曼 (希)科斯塔斯·宙馬斯
- 812字
- 2020-01-10 15:31:27
第1章 為何選擇Flink
人們對(duì)某件事的正確理解往往來自基于有效論據(jù)的結(jié)論。要獲得這樣的結(jié)論,最有效的方法就是沿著事件發(fā)生的軌跡進(jìn)行分析。
許多系統(tǒng)都會(huì)產(chǎn)生連續(xù)的事件流,如行駛中的汽車發(fā)射出GPS信號(hào),金融交易,移動(dòng)通信基站與繁忙的智能手機(jī)進(jìn)行信號(hào)交換,網(wǎng)絡(luò)流量,機(jī)器日志,工業(yè)傳感器和可穿戴設(shè)備的測(cè)量結(jié)果,等等。如果能夠高效地分析大規(guī)模流數(shù)據(jù),我們對(duì)上述系統(tǒng)的理解將會(huì)更清楚、更快速。簡(jiǎn)而言之,流數(shù)據(jù)更真實(shí)地反映了我們的生活方式。
因此,我們自然希望將數(shù)據(jù)用事件流的方式收集起來并加以處理。但直到目前,這并不是整個(gè)行業(yè)的標(biāo)準(zhǔn)做法。流處理并非全新的概念,但它確實(shí)是一項(xiàng)專業(yè)性強(qiáng)且極具挑戰(zhàn)性的技術(shù)。實(shí)際上,企業(yè)常見的數(shù)據(jù)架構(gòu)仍舊假設(shè)數(shù)據(jù)是有頭有尾的有限集。這個(gè)假設(shè)存在的大部分原因在于,與有限集匹配的數(shù)據(jù)存儲(chǔ)及處理系統(tǒng)建起來比較簡(jiǎn)單。但是,這樣做無疑給那些天然的流式場(chǎng)景人為地加了限制。
我們渴望按照流的方式處理數(shù)據(jù),但要做好很困難;隨著大規(guī)模數(shù)據(jù)在各行各業(yè)中出現(xiàn),難度越來越大。這是一個(gè)屬于物理學(xué)范疇的難題:在大型分布式系統(tǒng)中,數(shù)據(jù)一致性和對(duì)事件發(fā)生順序的理解必然都是有限的。伴隨著方法和技術(shù)的演化,我們盡可能使這種局限性不危及商業(yè)目標(biāo)和運(yùn)營(yíng)目標(biāo)。
在這樣的背景下,Apache Flink(以下簡(jiǎn)稱Flink)應(yīng)運(yùn)而生。作為在公共社區(qū)中誕生的開源軟件,F(xiàn)link為大容量數(shù)據(jù)提供流處理,并用同一種技術(shù)實(shí)現(xiàn)批處理。
在Flink的開發(fā)過程中,開發(fā)人員著眼于避免其他流處理方法不得不在高效性或者易用性方面所做的妥協(xié)。
本書將討論流處理的一些潛在好處,從而幫助你確定以流為基礎(chǔ)的數(shù)據(jù)處理方法是否適合你自己的商業(yè)目標(biāo)。流處理的一些數(shù)據(jù)來源以及適用場(chǎng)景可能會(huì)讓你感到意外。此外,本書還將幫助你理解Flink的技術(shù)以及這些技術(shù)如何克服流處理面臨的困難。
本章將介紹人們希望通過分析流數(shù)據(jù)獲得什么,以及在大規(guī)模流數(shù)據(jù)分析過程中面臨的困難。本章是關(guān)于Flink的入門介紹,你可以看到人們平常(包括在生產(chǎn)環(huán)境中)是怎么使用它的。
- 現(xiàn)代測(cè)控系統(tǒng)典型應(yīng)用實(shí)例
- 嵌入式系統(tǒng)及其開發(fā)應(yīng)用
- Google Cloud Platform Cookbook
- Java實(shí)用組件集
- Hands-On Neural Networks with Keras
- Hands-On Linux for Architects
- Apache Superset Quick Start Guide
- 空間站多臂機(jī)器人運(yùn)動(dòng)控制研究
- 軟件工程及實(shí)踐
- 電子設(shè)備及系統(tǒng)人機(jī)工程設(shè)計(jì)(第2版)
- Web編程基礎(chǔ)
- 寒江獨(dú)釣:Windows內(nèi)核安全編程
- 數(shù)據(jù)要素:全球經(jīng)濟(jì)社會(huì)發(fā)展的新動(dòng)力
- Hands-On DevOps
- 自適應(yīng)學(xué)習(xí):人工智能時(shí)代的教育革命