- 大數(shù)據(jù)技術(shù)與應用
- 周蘇
- 5079字
- 2020-05-29 11:57:48
1.1 什么是大數(shù)據(jù)
人類的數(shù)字世界包括上傳到手機中的圖像和視頻、用于高清電視的數(shù)字電影、ATM機中的銀行數(shù)據(jù)、機場和重要活動的安全錄像(比如奧林匹克運動會)、歐洲原子能研究機構(gòu)(CERN)中大型強子對撞機的亞原子碰撞記錄、優(yōu)步專車的拼車路線記錄、通過移動網(wǎng)絡傳輸?shù)奈⑿耪Z音通話,以及用于日常溝通的短信文本等。
根據(jù)IDC ../Text/Chapter01_0006.xhtml#foot1 《數(shù)字世界》研究項目的統(tǒng)計,2010年全球數(shù)字世界的規(guī)模首次達到了ZB(1ZB=1萬億GB)級別(1.227ZB);而2005年這個數(shù)字只有130EB,基本上5年增長了10倍。這種爆炸式的增長,意味著到2020年,數(shù)字世界的規(guī)模將達到40ZB,即15年增長300倍。如果單就數(shù)量而言,40ZB相當于地球上所有海灘上的沙粒數(shù)量的57倍。如果用藍光光盤保存所有這些40ZB數(shù)據(jù),這些光盤的重量(不包括任何光盤套和光盤盒)將相當于424艘尼米茲級航空母艦的重量(滿載排水量約10萬噸),或者相當于世界上每個人擁有5247GB的數(shù)據(jù)。無疑,現(xiàn)在已經(jīng)進入了“大數(shù)據(jù)”時代。
和之前的一些IT流行語一樣,“大數(shù)據(jù)”也是一個起源于歐美的詞匯。在一些以大數(shù)據(jù)為主題的報告中,經(jīng)常會引用2010年2月出版的《經(jīng)濟學家》(The Economist)雜志中一篇題為The data deluge的文章。Deluge的中文意思是“大泛濫、大洪水”“大量”。因此,這篇文章的標題直譯出來,就是“數(shù)據(jù)洪流”或“海量數(shù)據(jù)”。自這篇文章問世以來,大數(shù)據(jù)作為熱門話題的出鏡率便急劇上升,因此可以肯定的是,這篇文章是大數(shù)據(jù)備受矚目的一個重大契機。
基本知識:字節(jié)大小。
字節(jié)最小的基本單位是Byte(B),按照進率1024(即2的十次方)計算,順序給出如下。
1B=8bit(位),一個英文字符
1KB=1024B,一個句子或一段話
1MB=1024KB,一個20頁的幻燈片演示文稿或一本小書
1GB=1024MB,書架上9m長的書
1TB=1024GB,300h的優(yōu)質(zhì)視頻、美國國會圖書館存儲容量的1/10
1PB=1024TB,35萬張數(shù)字照片
1EB=1024PB,1999年全世界生成的信息的一半
1ZB=1024EB,暫時無法想象
1YB=1024ZB
1DB=1024YB
1NB=1024DB
2011年5月,美國麥肯錫全球研究院(MGI)發(fā)表了一篇名為Big Data: The Next Frontier for Innovation,Competition and Productivity(大數(shù)據(jù):未來創(chuàng)新、競爭、生產(chǎn)力的指向標)的研究報告,“大數(shù)據(jù)”(big data,見圖1-1)這個關(guān)鍵詞便開始沿用至今。不過,最先對如何面對龐大數(shù)據(jù)這一問題進行剖析的,應該還是《經(jīng)濟學家》雜志中的那篇文章。從2012年開始,大數(shù)據(jù)成了IT業(yè)界關(guān)注度不斷提高的關(guān)鍵詞之一。
圖1-1 大數(shù)據(jù)時代
1.1.1 大數(shù)據(jù)的定義
所謂大數(shù)據(jù),是指用現(xiàn)有的一般技術(shù)難以管理的大量數(shù)據(jù)的集合,即所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)實現(xiàn)獲取、管理、處理、并使之成為有效的輔助企業(yè)經(jīng)營決策的信息。
所謂“用現(xiàn)有的一般技術(shù)難以管理”,是指用目前在企業(yè)數(shù)據(jù)庫占據(jù)主流地位的關(guān)系型數(shù)據(jù)庫無法進行管理的、具有復雜結(jié)構(gòu)的數(shù)據(jù)。或者也可以說,是指由于數(shù)據(jù)量的增大,導致對數(shù)據(jù)的查詢(Query)響應時間超出允許范圍的龐大數(shù)據(jù)。
研究機構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新的處理模式,才能使用戶具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力,以及海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫說:“大數(shù)據(jù)指的是所涉及的數(shù)據(jù)集規(guī)模已經(jīng)超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析的能力。這是一個被故意設計成主觀性的定義,并且是一個關(guān)于多大的數(shù)據(jù)集才能被認為是大數(shù)據(jù)的可變定義,即并不定義大于一個特定數(shù)字的TB才稱為大數(shù)據(jù)。因為隨著技術(shù)的不斷發(fā)展,符合大數(shù)據(jù)標準的數(shù)據(jù)集容量也會增長;并且定義隨不同的行業(yè)也有變化,這依賴于在一個特定行業(yè)通常使用何種軟件和數(shù)據(jù)集有多大。因此,大數(shù)據(jù)在今天不同行業(yè)中的范圍可以從幾十TB到幾PB。”
如今,“大數(shù)據(jù)”這一通俗直白、簡單樸實的名詞,已經(jīng)成為最火爆的IT行業(yè)詞匯,隨之,數(shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析和數(shù)據(jù)挖掘等圍繞大數(shù)據(jù)商業(yè)價值的利用正逐漸成為行業(yè)人士爭相追捧的利潤焦點,在全球引領(lǐng)了又一輪數(shù)據(jù)技術(shù)革新的浪潮。
1.1.2 用3V描述大數(shù)據(jù)的特征
從字面來看,“大數(shù)據(jù)”這個詞可能會讓人覺得只是容量非常大的數(shù)據(jù)集合而已。但容量只不過是大數(shù)據(jù)特征的一個方面,如果只拘泥于數(shù)據(jù)量,就無法深入理解當前圍繞大數(shù)據(jù)所進行的討論。因為“用現(xiàn)有的一般技術(shù)難以管理”這樣的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。
IBM說:“可以用3個特征相結(jié)合來定義大數(shù)據(jù):數(shù)量(Volume,或稱容量)、種類Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數(shù)據(jù)。”如圖1-2所示。
圖1-2 按數(shù)量、種類和速度來定義大數(shù)據(jù)
1.Volume(數(shù)量)
用現(xiàn)有技術(shù)無法管理的數(shù)據(jù)量,從現(xiàn)狀來看,基本上是指從幾十TB到幾PB這樣的數(shù)量級。當然,隨著技術(shù)的進步,這個數(shù)值也會不斷變化。
如今,存儲的數(shù)據(jù)數(shù)量正在急劇增長中,存儲的事物包括環(huán)境數(shù)據(jù)、財務數(shù)據(jù)、醫(yī)療數(shù)據(jù)和監(jiān)控數(shù)據(jù)等。有關(guān)數(shù)據(jù)量的對話已從TB級別轉(zhuǎn)向PB級別,并且不可避免地會轉(zhuǎn)向ZB級別。可是,隨著可供企業(yè)使用的數(shù)據(jù)量的不斷增長,可處理、理解和分析的數(shù)據(jù)的比例卻不斷下降。
2.Variety(種類、多樣性)
隨著傳感器、智能設備及社交協(xié)作技術(shù)的激增,企業(yè)中的數(shù)據(jù)也變得更加復雜,因為它不僅包含傳統(tǒng)的關(guān)系型數(shù)據(jù),還包含來自網(wǎng)頁、互聯(lián)網(wǎng)日志文件、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統(tǒng)的傳感器數(shù)據(jù)等原始、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
這里的種類是表示所有的數(shù)據(jù)類型。其中,爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)和視頻等,用企業(yè)中主流的關(guān)系型數(shù)據(jù)庫是很難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。
當然,在這些數(shù)據(jù)中,有一些是過去就一直存在并保存下來的。和過去不同的是,這些大數(shù)據(jù)并非只是存儲起來就夠了,還需要對其進行分析,并從中獲得有用的信息。例如監(jiān)控攝像機中的視頻數(shù)據(jù)。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控攝像機,其最初目的是為了防范盜竊,但現(xiàn)在也出現(xiàn)了使用監(jiān)控攝像機的視頻數(shù)據(jù)來分析顧客購買行為的案例。
例如,美國高級文具制造商萬寶龍(Montblanc)過去是憑經(jīng)驗和直覺來決定商品陳列的布局的,現(xiàn)在嘗試利用監(jiān)控攝像頭對顧客在店內(nèi)的行為進行分析。通過分析監(jiān)控攝像機的數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。
美國移動運營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控攝像機,可以統(tǒng)計來店人數(shù),還可以追蹤顧客在店內(nèi)的行動路線、在展臺前停留的時間,甚至是試用了哪一款手機、試用了多長時間等,對顧客在店內(nèi)的購買行為進行分析。
3.Velocity(速度)
數(shù)據(jù)產(chǎn)生和更新的頻率也是衡量大數(shù)據(jù)的一個重要特征。就像所收集和存儲的數(shù)據(jù)量和種類發(fā)生了變化一樣,生成和處理數(shù)據(jù)的速度也在變化。不要將速度的概念限定為與數(shù)據(jù)存儲庫相關(guān)的增長速率,應動態(tài)地將此定義應用到數(shù)據(jù),即數(shù)據(jù)流動的速度。有效處理大數(shù)據(jù)需要在數(shù)據(jù)變化的過程中對它的數(shù)量和種類進行分析,而不只是在它靜止后進行分析。
例如,遍布全國的便利店在24小時內(nèi)產(chǎn)生的POS機數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點擊流數(shù)據(jù),高峰時達到每秒近萬條的微信短文,以及全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。
IBM在3V的基礎上又歸納總結(jié)了第四個V—Veracity(真實和準確)。“只有真實而準確的數(shù)據(jù)才能讓對數(shù)據(jù)的管控和治理真正有意義。隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應用數(shù)據(jù)等新數(shù)據(jù)源的興起,傳統(tǒng)數(shù)據(jù)源的局限性被打破,企業(yè)愈發(fā)需要有效的信息治理以確保其真實性和安全性。”
IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)說:“大數(shù)據(jù)是一個貌似不知道從哪里冒出來的大的動力。但是實際上,大數(shù)據(jù)并不是新生事物。然而,它確實正在進入主流,并得到重大關(guān)注,這是有原因的。廉價的存儲、傳感器和數(shù)據(jù)采集技術(shù)的快速發(fā)展、通過云和虛擬化存儲設施增加的信息鏈路,以及創(chuàng)新軟件和分析工具,正在驅(qū)動著大數(shù)據(jù)。大數(shù)據(jù)不是一個‘事物’,而是一個跨多個信息技術(shù)領(lǐng)域的動力/活動。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),其被設計用于:通過使用高速(Velocity)的采集、發(fā)現(xiàn)和/或分析,從超大容量(Volume)的多樣Variety)數(shù)據(jù)中經(jīng)濟地提取價值(Value)。”
這個定義除了揭示大數(shù)據(jù)傳統(tǒng)的3V基本特征,即Volume(大數(shù)據(jù)量)、Variety(多樣性)和Velocity(高速)外,還增添了一個新特征——Value(價值)。
一個大數(shù)據(jù)實現(xiàn)的主要價值可以基于下面3個評價準則中的1個或多個進行評判。
· 它提供了更有用的信息嗎?
· 它改進了信息的精確性嗎?
· 它改進了響應的及時性嗎?
事實上,大數(shù)據(jù),或者說“極限信息”(Extreme Information)具有12個維度(象限)圖1-3展示了極限信息管理的3個層次和12個象限。
圖1-3 極限信息管理的3個層次和12個象限
最下面一層“量化指標”指的是大數(shù)據(jù)的基本特征,即大數(shù)據(jù)量、多樣性和高速,即傳統(tǒng)的3V概念。另外還加上了“復雜性”(Complexity),包括空間維、時間維等多種數(shù)據(jù)復雜性。大數(shù)據(jù)解決方案應首先考慮以這些問題為出發(fā)點。然而,解決這4個方面的問題只是大數(shù)據(jù)解決方案的基礎,用以支撐起大數(shù)據(jù)平臺,在這之上還有很多問題需要解決。
第二層“訪問權(quán)限管理和控制”有很多關(guān)于訪問權(quán)限的問題。數(shù)據(jù)的敏感性是一個很基礎的問題,但到現(xiàn)在為止,基于現(xiàn)有的技術(shù)和管理手段,還沒有對數(shù)據(jù)的敏感性進行分析的優(yōu)秀的解決方案。所謂共享協(xié)議,即數(shù)據(jù)將會以什么形式、什么格式和時間點通過什么樣的接口實現(xiàn)這些共享和數(shù)據(jù)的交換,這是大數(shù)據(jù)的重點問題之一。數(shù)據(jù)交換的所有方式都是以標準的協(xié)議來支持的,因為在大數(shù)據(jù)時代,數(shù)據(jù)的來源本身是多樣性的,數(shù)據(jù)的格式甚至是無法管理的,還有很多數(shù)據(jù)來自企業(yè)外部,來自互聯(lián)網(wǎng)的提供商,到底如何通過這些協(xié)議自動將數(shù)據(jù)放到數(shù)據(jù)倉庫里面來,這種情況下,數(shù)據(jù)的共享協(xié)議是一個很關(guān)鍵的問題。至于熱點數(shù)據(jù),在大數(shù)據(jù)時代,數(shù)據(jù)管理與傳統(tǒng)的方式有非常明顯的差別。傳統(tǒng)的數(shù)據(jù)管理會把單獨的時間點作為一個熱點數(shù)據(jù),但是在大數(shù)據(jù)時代,熱點數(shù)據(jù)有可能是并行的多個。這些熱點數(shù)據(jù)之間實際上是有可能有聯(lián)系的。由于各種事件的相互觸發(fā),這些熱點數(shù)據(jù)可能同時出現(xiàn),而且是相互關(guān)聯(lián)的,甚至是可以預測的。所以說在大數(shù)據(jù)時代,熱點數(shù)據(jù)的管理也是一個重要話題。
最上面一層“質(zhì)量管理”也是傳統(tǒng)數(shù)據(jù)管理中非常重要的一個方面。這里面提到的有效性和有效期限,都有明確的技術(shù)工具來解決。但到現(xiàn)在為止,在這些方面還是非常依賴傳統(tǒng)的數(shù)據(jù)倉庫工具,而沒有專門針對大數(shù)據(jù)的工具和技術(shù)能夠解決這些問題。其結(jié)果是,大數(shù)據(jù)應用一方面受制于用戶接受的程度,另一方面也受制于技術(shù)。現(xiàn)在看來,很多用戶仍然必須依賴傳統(tǒng)的數(shù)據(jù)管理的解決方案,而只能拿大數(shù)據(jù)的技術(shù)作為一個前臺來做一些預處理。因為它缺少相應的技術(shù)和工具的支持。所以,大數(shù)據(jù)從12個象限的角度來說,還只是一個初步,因為里面一些非常基本的問題到現(xiàn)在還沒有解決。大數(shù)據(jù)的形態(tài)有很多,現(xiàn)在仍然是雛形階段。數(shù)據(jù)的集成,尤其是跨行業(yè)、跨不同的部門、跨各種技術(shù)能集成起來的機會還是非常少的。
除了業(yè)內(nèi)主流的以大數(shù)據(jù)3V特征為基礎的定義外,還有使用3S或者3I來描述大數(shù)據(jù)特征的定義。
3S分別是Size(大小)、Speed(速度)和Structure(結(jié)構(gòu))。實際上,這個維度的特征與3V異曲同工,除了用詞的不同,并沒有太大的差別。
關(guān)于大數(shù)據(jù)的3I,介紹如下。
1)Ill-defined(定義不明確的):多個主流的大數(shù)據(jù)定義都強調(diào)了數(shù)據(jù)的規(guī)模需要超過傳統(tǒng)方法的處理能力。而隨著技術(shù)的進步,數(shù)據(jù)分析的效率不斷提高,符合大數(shù)據(jù)定義的數(shù)據(jù)規(guī)模也會相應地不斷變大,因而并沒有一個明確的標準。
2)Intimidating(令人生畏的):從管理大數(shù)據(jù)到使用正確的工具獲取它的價值,利用大數(shù)據(jù)的過程充滿了各種挑戰(zhàn)。
3)Immediate(即時的):數(shù)據(jù)的價值會隨著時間快速衰減。因此,為了保證大數(shù)據(jù)的可控性,需要通過減少數(shù)據(jù)收集到獲得數(shù)據(jù)洞察之間的時間,使得大數(shù)據(jù)成為真正的即時大數(shù)據(jù)。這意味著能盡快地分析數(shù)據(jù)對獲得競爭優(yōu)勢是至關(guān)重要的。
總之,大數(shù)據(jù)是一個動態(tài)的定義,不同行業(yè)根據(jù)其應用的不同有著不同的理解,其衡量標準也在隨著技術(shù)的進步而改變。
1.1.3 廣義的大數(shù)據(jù)
前面關(guān)于大數(shù)據(jù)定義的著眼點僅僅在于數(shù)據(jù)的性質(zhì)上,因此,將其視為狹義上的定義,并在廣義層面上再為大數(shù)據(jù)下一個定義,如圖l-4所示。
圖1-4 廣義的大數(shù)據(jù)
所謂大數(shù)據(jù),是一個綜合性概念,它包括因具備3V(Volume、Variety和Velocity)特征而難以進行管理的數(shù)據(jù),對這些數(shù)據(jù)進行存儲、處理和分析的技術(shù),以及能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織。
所謂“存儲、處理和分析的技術(shù)”,指的是用于大規(guī)模數(shù)據(jù)分布式處理的框架Hadoop、具備良好擴展性的NoSQL數(shù)據(jù)庫,以及機器學習和統(tǒng)計分析等。所謂“能夠通過分析這些數(shù)據(jù)獲得實用意義和觀點的人才和組織”,指的是目前十分緊俏的“數(shù)據(jù)科學家”這類人才,以及能夠?qū)Υ髷?shù)據(jù)進行有效運用的組織。
- Hands-On Data Science with SQL Server 2017
- PIC單片機C語言非常入門與視頻演練
- AWS Administration Cookbook
- Pig Design Patterns
- 基于ARM 32位高速嵌入式微控制器
- Visual C++編程全能詞典
- Linux服務與安全管理
- Applied Data Visualization with R and ggplot2
- 奇點將至
- 電腦上網(wǎng)入門
- 手把手教你學Photoshop CS3
- Flash CS3動畫制作
- ARM嵌入式開發(fā)實例
- SolarWinds Server & Application Monitor:Deployment and Administration
- Internet of Things with Raspberry Pi 3