書名: 大數(shù)據(jù)管理系統(tǒng)作者名: 江大偉 高云君 陳剛編著本章字?jǐn)?shù): 12字更新時間: 2020-05-08 10:00:52
第1篇 大數(shù)據(jù)管理系統(tǒng)基礎(chǔ)
第1章 大數(shù)據(jù)技術(shù)簡介
1.1 大數(shù)據(jù)技術(shù)的起源
“大數(shù)據(jù)”一詞最早出現(xiàn)于SGI公司首席科學(xué)家John R.Mashey博士在1999年USENIX年度技術(shù)會議上做的特邀報告中。在該報告中,Mashey博士論述到:“人們對網(wǎng)絡(luò)應(yīng)用的期望正在不斷提升,人們希望網(wǎng)絡(luò)應(yīng)用能夠創(chuàng)建、存儲、理解大數(shù)據(jù),數(shù)據(jù)量越來越大(圖片、圖像、模型),數(shù)據(jù)類型越來越多(音頻、視頻)[1]?!盡ashey博士的論述總結(jié)了我們對大數(shù)據(jù)最初的兩點認(rèn)識:①互聯(lián)網(wǎng)應(yīng)用是大數(shù)據(jù)的驅(qū)動型應(yīng)用;②大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)類型多。隨后,Laney博士在一份未公開的研究報告中進(jìn)一步將大數(shù)據(jù)的特征定義為數(shù)據(jù)量大、數(shù)據(jù)類型雜、數(shù)據(jù)產(chǎn)生速度快(即3V)[2]。Laney博士的定義構(gòu)成了我們普遍接受的對大數(shù)據(jù)的描述性定義。
然而,大數(shù)據(jù)的概念在提出后并沒有受到人們的關(guān)注,甚至在相當(dāng)長的時間內(nèi)被人們遺忘。2000年3月10日美國納斯達(dá)克指數(shù)創(chuàng)造了5048.62點的歷史性新高。不幸的是,在隨后的黑色星期一(即3月13日),發(fā)生了互聯(lián)網(wǎng)泡沫破裂,以.com公司為代表的科技股票遭受大規(guī)模拋售。在納斯達(dá)克上市的企業(yè)有500家破產(chǎn)(其中90%的企業(yè)為互聯(lián)網(wǎng)企業(yè)),慘淡的股市使人們再沒有理由不關(guān)注互聯(lián)網(wǎng)應(yīng)用以及與之相關(guān)的大數(shù)據(jù)技術(shù)。
互聯(lián)網(wǎng)泡沫破裂的原因是多方面的,但是其中最重要的原因是當(dāng)時的互聯(lián)網(wǎng)企業(yè)無法找到穩(wěn)定的盈利模式。與傳統(tǒng)企業(yè)不同,互聯(lián)網(wǎng)企業(yè)并不經(jīng)營實物資產(chǎn),而是經(jīng)營虛擬的數(shù)據(jù)資產(chǎn)。因此,傳統(tǒng)企業(yè)研發(fā)的實物資產(chǎn)管理和變現(xiàn)技術(shù)并不適用于互聯(lián)網(wǎng)企業(yè)。而互聯(lián)網(wǎng)企業(yè)也沒有研發(fā)出適應(yīng)自身特點的資產(chǎn)管理和變現(xiàn)技術(shù)。由于缺乏有效的資產(chǎn)變現(xiàn)手段,在互聯(lián)網(wǎng)泡沫破裂前,幾乎所有的互聯(lián)網(wǎng)企業(yè)都處于嚴(yán)重虧損狀態(tài)。糟糕的營收績效極大地打擊了投資者的信心,從而引發(fā)了大規(guī)模的股票拋售。
幸運的是,互聯(lián)網(wǎng)產(chǎn)業(yè)并沒有從此消失。一些互聯(lián)網(wǎng)企業(yè)如亞馬遜、谷歌、雅虎等存活了下來。他們反思企業(yè)運營中出現(xiàn)的問題,投入大量的精力研發(fā)適合自身特點的資產(chǎn)管理和變現(xiàn)技術(shù),向技術(shù)要紅利。經(jīng)過近十年的摸索,亞馬遜的股價在2011年升至246.71美元,相較2001年泡沫破裂后的5.51美元,增長了近50倍!如此戲劇性的驚天逆轉(zhuǎn)震驚了所有人。人們紛紛追問兩個問題:①互聯(lián)網(wǎng)企業(yè)成功的秘訣是什么?②能否將互聯(lián)網(wǎng)企業(yè)成功的秘訣復(fù)制到非互聯(lián)網(wǎng)企業(yè)?
經(jīng)過研究,人們發(fā)現(xiàn)互聯(lián)網(wǎng)企業(yè)成功的秘密在于研發(fā)出了適應(yīng)自身資產(chǎn)特點的“開源節(jié)流”技術(shù)。首先,互聯(lián)網(wǎng)企業(yè)研發(fā)出云計算技術(shù),有效地降低了維護(hù)海量數(shù)據(jù)資產(chǎn)的運營成本;其次,互聯(lián)網(wǎng)企業(yè)研發(fā)出大數(shù)據(jù)管理技術(shù),高效地管理其數(shù)據(jù)資產(chǎn);最后,互聯(lián)網(wǎng)企業(yè)研發(fā)出大數(shù)據(jù)分析技術(shù),有效地從數(shù)據(jù)資產(chǎn)中發(fā)現(xiàn)規(guī)律,提升數(shù)據(jù)資產(chǎn)的變現(xiàn)效率。人們將互聯(lián)網(wǎng)企業(yè)研發(fā)出的大數(shù)據(jù)管理技術(shù)和大數(shù)據(jù)分析技術(shù)統(tǒng)稱為大數(shù)據(jù)技術(shù)。進(jìn)一步的研究表明,大數(shù)據(jù)技術(shù)乃至云計算技術(shù)可以向非互聯(lián)網(wǎng)企業(yè)遷移。也就是說,大數(shù)據(jù)技術(shù)和云計算技術(shù)仍然有巨大的潛力和上升空間。
至此,謎底揭開。人們重新以巨大的熱情討論大數(shù)據(jù)技術(shù)。各國政府紛紛制定政策推動大數(shù)據(jù)技術(shù)的研發(fā)與應(yīng)用。大數(shù)據(jù)相關(guān)的研討經(jīng)常被《經(jīng)濟(jì)學(xué)家》[3,4]、《紐約時報》[5]和“國家公共廣播電臺”[6,7]等公共媒體報道。兩個主要的科學(xué)期刊《自然》和《科學(xué)》也開辟了專欄來討論大數(shù)據(jù)的挑戰(zhàn)和影響[8,9]。
本書主要介紹大數(shù)據(jù)管理技術(shù)。在正式展開討論之前,我們首先介紹與大數(shù)據(jù)技術(shù)密切相關(guān)的云計算技術(shù)。
1.2 大數(shù)據(jù)與云計算
云計算與大數(shù)據(jù)密切相關(guān)。大數(shù)據(jù)是計算密集型操作的對象,需要消耗巨大的存儲空間。云計算的主要目標(biāo)是在集中管理下使用巨大的計算和存儲資源,用微粒度計算能力提供大數(shù)據(jù)應(yīng)用。云計算的發(fā)展為大數(shù)據(jù)的存儲和處理提供了解決方案。另外,大數(shù)據(jù)的出現(xiàn)也加速了云計算的發(fā)展?;谠朴嬎愕姆植际酱鎯夹g(shù)可以有效地管理大數(shù)據(jù);借助云計算的并行計算能力可以提高大數(shù)據(jù)采集和分析的效率。盡管云計算和大數(shù)據(jù)技術(shù)存在很多重疊的技術(shù),但在以下兩個方面有所不同。首先,它們的概念在一定程度上是不同的。云計算轉(zhuǎn)換IT架構(gòu),而大數(shù)據(jù)影響業(yè)務(wù)決策。但是,大數(shù)據(jù)依賴云計算作為平穩(wěn)運行的基礎(chǔ)架構(gòu)。其次,大數(shù)據(jù)和云計算有不同的目標(biāo)客戶。云計算是針對首席信息官(CIO)的技術(shù)和產(chǎn)品,是一種先進(jìn)的IT解決方案。大數(shù)據(jù)是針對首席執(zhí)行官(CEO)、聚焦于業(yè)務(wù)運營的產(chǎn)品。因為決策者可能直接感受到市場競爭的壓力,所以必須以更具競爭力的方式擊敗對手。隨著大數(shù)據(jù)和云計算的發(fā)展,這兩種技術(shù)當(dāng)然也越來越相互融合。云計算具有類似于計算機(jī)和操作系統(tǒng)的功能,提供系統(tǒng)級資源;大數(shù)據(jù)及相應(yīng)的大數(shù)據(jù)管理系統(tǒng)運行在云計算支持的上層,提供類似于數(shù)據(jù)庫的功能和高效的數(shù)據(jù)處理能力。
大數(shù)據(jù)的演變受快速增長的應(yīng)用需求所驅(qū)動,而云計算是由虛擬化技術(shù)發(fā)展而成的。因此,云計算不僅為大數(shù)據(jù)提供計算和處理,其本身也是一種服務(wù)模式。在一定程度上,云計算的發(fā)展促進(jìn)了大數(shù)據(jù)的發(fā)展,兩者相輔相成。
參考文獻(xiàn)
[1] Diebold F. On the Origin(s) and Development of the Term“Big Data”. Pier working paper archive,Penn Institute for Economic Research,Department of Economics,University of Pennsylvania,2012.
[2] Laney D. 3-D Data Management:Controlling Data Volume,Velocity and Variety.META Group Research Note,2001.
[3] Cukier K. Data,data everywhere:a sp-ecial report on managing information. Economist Newspaper,2010.
[4] Drowning in numbers-digital data will flood the planet and help us understand it better,2011. http://www. economist. com/bl-ogs/dailychart/2011/11/bigdata-0.
[5] Lohr S. The age of big data. New York Times,2012.
[6] Yuki N. Following digital breadcrumbs to big data gold. http://www. npr. org/2011/11/29/142521910/thedigitalbreadcrumbsthat-lead-to-big-data,2011.
[7] Yuki N. The search for analysts to make sense of big data. http://www. npr. org/2011/11/30/142893065/the-searchforanalyststo-make-sense-of-big-data,2011.
[8] Big data. http://www. nature. com/news/specials/bigdata/index. html,2008.
[9] Special online collection:dealing with big
data. http://www. sciencemag. org/site/special/data/,2011.
- Word 2000、Excel 2000、PowerPoint 2000上機(jī)指導(dǎo)與練習(xí)
- LabVIEW虛擬儀器從入門到測控應(yīng)用130例
- AutoCAD快速入門與工程制圖
- Cinema 4D R13 Cookbook
- VMware Performance and Capacity Management(Second Edition)
- 21天學(xué)通Java Web開發(fā)
- Hybrid Cloud for Architects
- 走近大數(shù)據(jù)
- SMS 2003部署與操作深入指南
- 工業(yè)自動化技術(shù)實訓(xùn)指導(dǎo)
- HBase Essentials
- 手把手教你學(xué)Photoshop CS3
- 渲染王3ds Max三維特效動畫技術(shù)
- Practical Network Automation
- Hands-On Generative Adversarial Networks with Keras