官术网_书友最值得收藏!

1.2 大數據與大數據技術發展歷程

1.大數據發展歷程

在全球范圍內,以電子方式存儲的數據(簡稱為電子數據)總量空前巨大。2011年,電子數據總量達到1.8ZB(ZettaByte,澤字節,代表的是十萬億億字節),相比2010年同期增加了1ZB,統計結果表明,每經過兩年就可以增加一倍。

回顧大數據的發展歷程,大數據總體上可以劃分為以下4個階段:萌芽期、成長期、爆發期和穩步發展期。

(1)萌芽期(1980—2008年):大數據術語被提出,相關技術概念得到一定程度的傳播,但沒有得到實質性發展。同一時期,隨著數據挖掘理論和數據庫技術的逐步成熟,一批商業智能工具和知識管理技術開始被應用。1980年,未來學家托夫勒在其所著的《第三次浪潮》一書中首次提出“大數據”一詞,將大數據稱贊為“第三次浪潮的華彩樂章”。2008年9月,《自然》雜志推出了“大數據”封面專欄。

(2)成長期(2009—2012年):大數據市場迅速成長,互聯網數據呈爆發式增長,大數據技術逐漸被大眾熟悉和使用。2010年2月,肯尼斯·庫克爾在《經濟學人》上發表了長達14頁的大數據專題報告《數據,無所不在的數據》。2012年,牛津大學教授維克托·邁爾·舍恩伯格的著作《大數據時代》開始在我國風靡,推動了大數據在我國的發展。

(3)爆發期(2013—2015年):大數據迎來了發展的高潮,世界各個國家紛紛布局大數據戰略。2013年,以百度、阿里、騰訊為代表的國內互聯網公司各顯身手,紛紛推出創新性的大數據應用。2015年9月,國務院發布《促進大數據發展行動綱要》,全面推進國大數據發展和應用,進一步提升創業創新活力和社會治理水平。

(4)穩步發展期(2016年至今):大數據應用滲透到各行各業,大數據價值不斷凸顯,數據驅動決策和社會智能化程度大幅提高,大數據產業迎來快速發展和大規模應用實施。2019年5月,《2018年全球大數據發展分析報告》顯示,中國大數據產業發展和技術創新能力有了顯著提升。這一時期學術界在大數據技術與應用方面的研究創新也不斷取得突破,截至2020年,全球以“big data”為關鍵詞的論文發表量達到64,739篇,全球共申請大數據領域的相關專利136,694項。

隨著我國大數據戰略謀篇布局的不斷展開,國家高度重視并不斷完善大數據政策支撐,大數據產業迅速發展,大致經歷了4個階段,如圖1-2所示,正逐步從數據大國向數據強國邁進。

圖1-2 大數據發展歷程

2.大數據技術發展歷程

大數據技術是指從數據采集、清洗、集成、存儲、展示到分析,進而從各種各樣的巨量數據中快速獲得有價值信息的全部技術。目前所說的大數據有雙重含義,它不僅指數據本身的特點,也包括采集數據的工具、平臺和數據分析系統等技術。

在大數據時代,傳統的軟件已經無法處理和挖掘大量數據中的信息。谷歌在2004年前后相繼發布了分布式文件系統(GFS)、大數據分布式計算框架——MapReduce、大數據NoSQL數據庫——Big Table。受到谷歌的啟發,2004年7月,Doug Cutting和Mike Cafarella在Nutch中實現了類似GFS的功能,也就是HDFS的前身。2005年2月,Mike Cafarella在Nutch中實現了MapReduce的最初版本。圖1-3所示為大數據技術發展的全過程。

圖1-3 大數據技術發展

在大數據的生命周期中,數據采集處于第一個環節。根據MapReduce產生數據的應用系統分類,大數據的采集主要有4種來源:管理信息系統、Web信息系統、物理信息系統、科學實驗系統。對于不同的數據集,可能存在不同的結構和模式,如文件、XML樹、關系表等,表現為數據的異構性。對多個異構的數據集,需要做進一步集成處理或整合處理,將來自不同數據集的數據收集、整理、清洗、轉換后,生成一個新的數據集,為后續查詢和分析處理提供統一的數據視圖。針對管理信息系統中異構數據庫集成技術、Web信息系統中的實體識別技術和Deep Web(又稱不可見網、隱藏網,是指互聯網上那些不能被標準搜索引擎索引的非表面網絡內容)集成技術、傳感器網絡數據融合技術等,業界人員已經做了很多研發工作,并取得了較大的進展,也推出了多種數據清洗和質量控制工具。這些工具包括美國SAS公司的Data Flux、美國IBM公司的Data Stage、美國Informatica公司的Informatica Power Center等。

3.大數據處理流程

一般來說,大數據處理流程包括數據采集、數據預處理、數據存儲、數據分析、數據可視化,如圖1-4所示。

(1)數據采集。數據采集又稱數據獲取,通過RFID射頻數據、傳感器數據、社交網絡數據、移動互聯網數據等方式獲得各種類型的結構化、半結構化及非結構化的海量數據。

(2)數據預處理。要分辨清楚哪些數據采用批處理就可以了、哪些數據是有實時處理價值的。實時處理對技術要求高,畢竟集群資源是有限的,需要合理利用計算資源。

(3)數據存儲。數據存儲是一個使用存儲庫持久地存儲和管理數據的集合,其中不僅包括數據倉庫,還包括簡單的存儲類型,如簡單的文件、電子郵件等。

(4)數據分析。將多份數據查詢出來,互相關聯合并,生成一張新的表單,然后可以在新表單的基礎上進行查詢或者再與其他數據關聯合并。

圖1-4 大數據處理流程

(5)數據可視化。數據可視化即數據的圖形表示,旨在以更易于掌握和理解的有效方式傳達大量海量數據。從某種意義上說,數據可視化是原始數據和圖形元素之間的映射,它決定了這些元素的屬性如何變化。可視化通常是通過使用圖表、折線、點、條形圖和地圖來進行的。

主站蜘蛛池模板: 措美县| 肇东市| 石棉县| 潼南县| 裕民县| 乳山市| 扎囊县| 庄浪县| 南涧| 怀安县| 合肥市| 方正县| 珲春市| 镇巴县| 两当县| 凤冈县| 虎林市| 阜平县| 萨嘎县| 崇左市| 伊金霍洛旗| 敖汉旗| 怀柔区| 光泽县| 武功县| 江达县| 神农架林区| 吉林省| 岐山县| 达日县| 瓦房店市| 许昌市| 吉首市| 育儿| 宁远县| 孙吴县| 剑川县| 隆德县| 洛南县| 得荣县| 太原市|