官术网_书友最值得收藏!

  • 云計算(典藏版)
  • 劉鵬主編
  • 1511字
  • 2024-01-18 11:55:48

1.1 大數據時代

我們先來看看百度關于“大數據”的搜索指數,如圖1-1所示。

圖1-1 “大數據”的搜索指數

數據來源:百度指數?baidu。

可以看出,“大數據”這個詞是從2012年才引起人們關注的,之后搜索量便迅猛增長。為什么大數據這么受關注?看看圖1-2就明白了。2004年,全球數據總量是30EB1。隨后,其于2005年達到了50EB,2006年達到了161EB,到2015年居然達到了驚人的7900EB,到2020年超過了60000EB。預計到2030年,全球每年新增數據量將突破1YB量級(1YB相當于4萬億臺內存為256GB的高端手機的存儲能力)。

圖1-2 全球數據總量

為什么全球數據量增長如此之快?一方面是由于數據產生方式的改變。歷史上,數據基本上是通過手工產生的。隨著人類步入信息社會,數據的產生越來越自動化。例如,在精細農業中,需要采集植物生長環境的溫度、濕度、病蟲害信息,對植物的生長進行精細的控制。因此我們在植物的生長環境中安裝各種各樣的傳感器,自動地收集我們需要的信息。對環境的感知,是一種抽樣的手段,抽樣密度越高,越逼近真實情形。如今,人類不再滿足于得到部分信息,而是傾向于收集對象的全量信息,即將我們周圍的一切數據化。因為有些數據如果丟失了哪怕很小一部分,都有可能得出錯誤的結論。例如,通過分析人的基因組判斷某人可不可能患某種疾病,即使丟失一小塊基因片段,都有可能導致錯誤的結論。為了達到這個目的,傳感器的使用量暴增。目前全球有30億~50億個傳感器,到2030年將突破100萬億個。這些傳感器24小時都在產生數據,這就導致了信息爆炸。

另一方面是由于人類的活動越來越依賴數據。一是人類的日常生活已經與數據密不可分。全球已經有超過50億人連入互聯網。在Web 2.0時代,每個人不僅是信息的接收者,同時是信息的產生者,每個人都成為數據源,每個人都在用智能終端拍照、錄像、發微博、發微信等。全球每天會有超過5萬小時的視頻上傳到YouTube,會有1.55億條信息上傳到Twitter,會在Amazon產生630萬筆訂單……二是科學研究進入了“數據科學”時代。例如,在物理學領域,歐洲粒子物理研究所的大型強子對撞機每秒產生的原始數據量高達40TB。在天文學領域,2000年斯隆數字巡天項目啟動時,位于墨西哥州的望遠鏡在短短幾周內收集到的數據比天文學歷史上的數據總和還要多。三是各行各業越來越依賴采用大數據手段來開展工作。例如,石油部門用地震勘探的方法來探測地質構造、尋找石油,使用了大量傳感器來采集地震波形數據。為保障高鐵運行安全,需要在每一段鐵軌周邊大量部署傳感器,從而感知異物、滑坡、水淹、變形、地震等異常。在智慧城市建設中,包括平安城市、智能交通、智慧環保和智能家居等,都會產生大量的數據。目前一個普通城市的攝像頭往往就有幾十萬個之多,其每分每秒都在產生極其海量的數據。

那么,何謂大數據?參考維基百科,本書給出的定義如下:海量數據或巨量數據,其規模巨大到無法通過目前主流的計算機系統在合理時間內獲取、存儲、管理、處理并提煉以幫助使用者決策。

目前工業界普遍認為大數據具有4V+1C的特征。

(1)數據量大(Volume):存儲的數據量巨大,PB級別是常態,因而對其分析的計算量也大。

(2)多樣(Variety):數據的來源及格式多樣,數據格式除了傳統的結構化數據,還包括半結構化或非結構化數據,比如用戶上傳的音頻和視頻內容。隨著人類活動進一步拓展,數據的來源會更加多樣。

(3)快速(Velocity):數據增長速度快,而且越新的數據價值越大,這就要求對數據的處理速度也要快,以便能夠從數據中及時地提取知識,發現價值。

(4)價值密度低(Value):需要對大量的數據進行處理,挖掘其潛在的價值,因此,大數據對我們提出的明確要求是,設計一種在成本可接受的條件下,通過快速采集、發現和分析,能從大量、多種類別的數據中提取價值的體系架構。

(5)復雜(Complexity):對數據的處理和分析的難度大。

主站蜘蛛池模板: 泽库县| 舟山市| 莱西市| 黎川县| 峨眉山市| 安义县| 海兴县| 清水县| 鲁山县| 明水县| 隆林| 砚山县| 望江县| 渭南市| 阿拉善左旗| 望都县| 浪卡子县| 赣州市| 朝阳县| 油尖旺区| 温宿县| 伊金霍洛旗| 高密市| 盐城市| 诸暨市| 天祝| 阿拉尔市| 金华市| 乳山市| 石屏县| 祁门县| 呼玛县| 麻江县| 商洛市| 文山县| 会泽县| 罗甸县| 衡南县| 安龙县| 安多县| 平邑县|