官术网_书友最值得收藏!

第1章 為何選擇Flink

人們對(duì)某件事的正確理解往往來自基于有效論據(jù)的結(jié)論。要獲得這樣的結(jié)論,最有效的方法就是沿著事件發(fā)生的軌跡進(jìn)行分析。

許多系統(tǒng)都會(huì)產(chǎn)生連續(xù)的事件流,如行駛中的汽車發(fā)射出GPS信號(hào),金融交易,移動(dòng)通信基站與繁忙的智能手機(jī)進(jìn)行信號(hào)交換,網(wǎng)絡(luò)流量,機(jī)器日志,工業(yè)傳感器和可穿戴設(shè)備的測(cè)量結(jié)果,等等。如果能夠高效地分析大規(guī)模流數(shù)據(jù),我們對(duì)上述系統(tǒng)的理解將會(huì)更清楚、更快速。簡(jiǎn)而言之,流數(shù)據(jù)更真實(shí)地反映了我們的生活方式。

因此,我們自然希望將數(shù)據(jù)用事件流的方式收集起來并加以處理。但直到目前,這并不是整個(gè)行業(yè)的標(biāo)準(zhǔn)做法。流處理并非全新的概念,但它確實(shí)是一項(xiàng)專業(yè)性強(qiáng)且極具挑戰(zhàn)性的技術(shù)。實(shí)際上,企業(yè)常見的數(shù)據(jù)架構(gòu)仍舊假設(shè)數(shù)據(jù)是有頭有尾的有限集。這個(gè)假設(shè)存在的大部分原因在于,與有限集匹配的數(shù)據(jù)存儲(chǔ)及處理系統(tǒng)建起來比較簡(jiǎn)單。但是,這樣做無疑給那些天然的流式場(chǎng)景人為地加了限制。

我們渴望按照流的方式處理數(shù)據(jù),但要做好很困難;隨著大規(guī)模數(shù)據(jù)在各行各業(yè)中出現(xiàn),難度越來越大。這是一個(gè)屬于物理學(xué)范疇的難題:在大型分布式系統(tǒng)中,數(shù)據(jù)一致性和對(duì)事件發(fā)生順序的理解必然都是有限的。伴隨著方法和技術(shù)的演化,我們盡可能使這種局限性不危及商業(yè)目標(biāo)和運(yùn)營(yíng)目標(biāo)。

在這樣的背景下,Apache Flink(以下簡(jiǎn)稱Flink)應(yīng)運(yùn)而生。作為在公共社區(qū)中誕生的開源軟件,F(xiàn)link為大容量數(shù)據(jù)提供流處理,并用同一種技術(shù)實(shí)現(xiàn)批處理。

在Flink的開發(fā)過程中,開發(fā)人員著眼于避免其他流處理方法不得不在高效性或者易用性方面所做的妥協(xié)。

本書將討論流處理的一些潛在好處,從而幫助你確定以流為基礎(chǔ)的數(shù)據(jù)處理方法是否適合你自己的商業(yè)目標(biāo)。流處理的一些數(shù)據(jù)來源以及適用場(chǎng)景可能會(huì)讓你感到意外。此外,本書還將幫助你理解Flink的技術(shù)以及這些技術(shù)如何克服流處理面臨的困難。

本章將介紹人們希望通過分析流數(shù)據(jù)獲得什么,以及在大規(guī)模流數(shù)據(jù)分析過程中面臨的困難。本章是關(guān)于Flink的入門介紹,你可以看到人們平常(包括在生產(chǎn)環(huán)境中)是怎么使用它的。

主站蜘蛛池模板: 当阳市| 莎车县| 棋牌| 永年县| 攀枝花市| 平顺县| 宕昌县| 徐闻县| 灵璧县| 吕梁市| 丘北县| 福清市| 银川市| 丰原市| 桐城市| 恩平市| 大悟县| 确山县| 道孚县| 宿州市| 新源县| 日土县| 临高县| 临澧县| 蚌埠市| 喀什市| 陇西县| 高雄市| 吉隆县| 蒙城县| 安塞县| 綦江县| 吉林市| 襄垣县| 滕州市| 开阳县| 兴仁县| 神木县| 舞钢市| 西林县| 新和县|