- 物聯網與后勤保障
- 蘇喜生等
- 5123字
- 2021-02-26 19:43:47
2.6 大數據技術
2.6.1 概念介紹
研究機構Gartner對大數據給出了定義:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數據也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百甚至數千的計算機分配工作。
大數據需要特殊的技術,以有效地處理大量的能容忍較長時間延時的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
2.6.2 原理及特點
大數據特性最早的提出者是麥塔集團(META Group,現為高德納)分析師道格·萊尼(Doug Laney),他在研究報告《3D數據管理:控制數據數量、速度及種類》中指出,“數據激增的挑戰和機遇是三維的,不僅僅在我們通常所理解的數據量(Volume)層面,還包括數據進出的速度(Velocity)以及數據種類范圍(Variety)”。此后,研究者紛紛從特性角度去分析和理解大數據,并對這種“3V”的觀點加以豐富。例如,IBM商業價值研究院在《分析:大數據在現實世界中的應用》報告中提出應增加準確性(Veracity);弗雷斯特研究公司(Forrester Research)分析師布萊恩·霍普金斯(Brian Hopkins)和鮑里斯·埃韋爾松(Boris Evelson)認為應增加易變性(Variability)等。其中國際數據公司(International Data Corporation,IDC)的觀點最為權威,也得到了研究者的廣泛認同,該公司在《從混沌中提取價值》報告中提出了大數據的“6V”特征,即數據容量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)、商業價值高(Value)、類型多變(Variability)、數據準確(Veracity)。下面對大數據的幾個重要特性具體介紹。
(1)數據容量大(Volume)。也稱數據體量巨大。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等,各方研究者雖然對大數據量的統計和預測結果并不完全相同,但一致認為數據量將急劇增長。
(2)數據類型繁多(Variety)。即數據類型多樣。從生成類型上分為交易數據、交互數據、傳感數據;從數據來源上分為社交媒體、傳感器數據、系統數據;從數據格式上分為文本、圖片、音頻、視頻、光譜等;從數據關系上分為結構化、半結構化、非結構化數據;從數據所有者分為公司數據、政府數據、社會數據等。
(3)處理速度快(Velocity)。數據的增長速度快,以及要求數據訪問、處理、交付等速度快。數據創建、處理和分析的速度持續加快,其原因是數據創建的實時性屬性,以及需要將流數據結合到業務流程和決策過程中的要求。速度影響數據時延——從數據創建或獲取到數據可以訪問的時間差。目前,數據以傳統系統不可能達到的速度在產生、獲取、存儲和分析。對于對時間敏感的流程(例如,實時欺詐監測或多渠道“即時”營銷),某些類型的數據必須實時地分析,以對業務產生價值。
(4)商業價值高(Value)。大數據價值巨大。大數據能夠通過規模效應將低價值密度的數據整合為高價值、作用巨大的信息資產。例如,美國社交網站Facebook有10億用戶,網站對這些用戶信息進行分析后,廣告商可根據結果精準投放廣告。對廣告商而言,10億用戶的數據價值上千億美元。
(5)類型多變(Variability)。大數據具有多層結構。弗雷斯特研究公司分析師布賴恩·霍普金斯和鮑里斯·埃韋爾松指出,大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。
(6)數據準確(Veracity)。也稱真實性,包括可信性、真偽性、來源和信譽的有效性和可審計性等子特征。一方面,對于網絡環境下如此大量的數據需要采取措施確保其真實性、客觀性,這是大數據技術與業務發展的迫切需求;另一方面,通過大數據分析,真實地還原和預測事物的本來面目也是大數據未來發展的趨勢。IBM商業價值研究院在發布的《分析:大數據在現實世界中的應用》報告中指出,追求高數據質量是一項重要的大數據要求和挑戰,但是,即使最優秀的數據清理方法也無法消除某些數據固有的不可預測性,例如,天氣、經濟或者客戶最終的購買決定。不確定性的確認和規劃的需求是大數據的一個維度,這是隨著需要更好地了解不確定性而引入的維度。
2.6.3 應用現狀
1. 數據戰略
(1)大數據全球戰略布局全面升級。發達國家期望通過建立大數據競爭優勢,鞏固和加強領先地位。美國作為大數據發展的發源地和創新的引領者,最早正式發布國家大數據戰略。繼美國之后,全球各國家、組織都紛紛在大數據戰略推進方面積極行動,各國的大數據發展戰略形成以下特點:一是政府全力推動,同時引導市場力量共同推進大數據發展;二是推動大數據在政用、商用和民用領域的全產業鏈覆蓋;三是重視數據資源的開放和管理的同時,全力抓好數據安全問題。
(2)中國加快構建大數據戰略體系。中國敏銳地把握了大數據的興起及發展趨勢。在短短幾年內,大數據迅速成為我國社會各領域關注的熱點。為促進大數據發展,加快建設數據強國,中國政府制定了一系列發展大數據的戰略性政策。2015年8月,國務院發布《促進大數據發展行動綱要》,提出全面推進中國大數據發展和應用,加快建設數據強國;同年10月,中共中央十八屆五中全會將“大數據”寫入會議公報并升格為國家戰略;2016年3月,國家在出臺的“十三五”規劃綱要中再次明確大數據作為基礎性戰略資源的重大價值,要加快推動相關研發、應用及治理。2017年1月,《大數據產業發展規劃(2016—2020年)》正式發布,全面制訂了“十三五”期間的大數據產業發展計劃。
(3)地區大數據發展格局初步形成。在《促進大數據發展行動綱要》發布之前,廣東、上海、貴州等地率先啟動了大數據地方政策的先行先試。而在《促進大數據發展行動綱要》發布后,各地政府加快跟進,全國31個省份均出臺了大數據相關政策文件。經過不斷的探索與實踐,地區大數據發展的梯次格局初步顯現。北京、廣東、上海等東部沿海地區產業基礎完善、人才優勢明顯,成為發展的核心地區;而地處西部欠發達地區的貴州、重慶等地區,通過戰略創新形成先發優勢,政府積極實施政策引導,引進大數據相關產業、資本與人才,也在區域競爭格局中占據一席之地。
2. 數據資源
(1)數據總量爆炸式增長。根據國際數據公司(IDC)《數字宇宙報告》,2020年以前全球數據量保持40%以上的指數增長速度,大約每兩年翻一番。
(2)數據成為核心生產資料。與農業時代的土地、資源、勞動力,工業時代的技術、資本不同的是,數據是人類自己創造的全新的生產資料。在互聯網沒有出現之前,數據就已經存在,但互聯網的發展才使數據流動和利用變得更為容易。數據用于記錄、反饋和提升互動體驗,過往雜亂、無用、靜態的數據因為流動而變得鮮活,數據擁有了生命,能夠用于量化決策與預測。發掘數據價值的技術成本降低,數據可以用在全局流程及價值優化,并且實現真正的數據業務化,產生新的社會經濟價值。
(3)判斷數據價值成為數據管理的核心能力。數據總量的爆炸性增長也給存儲、分析和使用大數據帶來挑戰。據統計,當下世界各大公司存儲的數據中充斥著半數以上的價值模糊的暗數據,在總體中的占比能夠達到52%;此外還有大約33%的歷史數據處在難以發掘的尷尬處境,或者是失去了時效性,或者是難以進行二次利用以及價值含量過低。因此,除數據總量構成的挑戰以外,大數據自身所包含的模糊性、時效性以及冗雜性,都對海量數據的價值挖掘能力提出了更高的訴求。因此,迫切需要開發者與決策者加快對大數據處理技術和分析能力的研究進程。
3. 數據流動
跨境數據流推動全球化進入新階段。麥肯錫全球研究院(MGI)發布《數字全球化:新時代的全球性流動》(Digital Globalization:The New Era of Global FIows)報告提出,“在全球商品流動趨緩、跨境資本流動出現下滑的趨勢下,全球化并沒有因此而逆轉或停滯。相反,因為跨境數據流的飆升,全球化進入了全新的發展階段”。
面對開放數據所能帶來的巨大潛能,中國也正推動全國范圍的數據開放。構建交易平臺成為促進數據流通的主要舉措。數據交易平臺是數據交易行為的重要載體,可以促進數據資源整合、規范交易行為、降低交易成本、增強數據流動性。近年來成立并投入運營的有北京大數據交易服務平臺、貴陽大數據交易所、長江大數據交易所、東湖大數據交易平臺、西咸新區大數據交易所和河北大數據交易中心、哈爾濱數據交易中心、江蘇大數據交易中心、上海大數據交易中心以及浙江大數據交易中心。
4. 數據產業
大數據產業核心層將保持每年40%的增長速度。目前大數據產業的統計口徑尚未建立,對于中國大數據產業的規模,各個研究機構均采取間接方法估算。通常認為,大數據產業核心層主要是指圍繞大數據采集、存儲、管理和挖掘等環節所形成的產業鏈條。中國大數據行業仍處于快速發展期,據中國信通院(CAICT)數據顯示,2017—2022年大數據核心產業還有著40%左右的高增長空間。
2.6.4 發展趨勢
1. 大數據和開源
Apache Hadoop、Spark和其他開源應用程序已經成為大數據技術空間的主流,而且這種趨勢似乎可能會持續下去。一項調查發現,近60%的企業于2019年底采用Hadoop集群投入生產。根據調研機構Forrester公司的報告,Hadoop的使用量每年增長32.9%。專家表示,近些年,許多企業擴大對Hadoop和NoSQL技術的使用,并尋找加快大數據處理的途徑,許多人尋求能夠讓實時訪問和響應數據的技術。
2. 內存技術
內存技術是企業正在研究加速大數據處理的技術之一。在傳統數據庫中,數據存儲在配備有硬盤驅動器或固態驅動器(SSD)的存儲系統中。而內存技術可以將數據存儲在RAM中,并且存取速度要快很多倍。Forrester公司的一份報告預測,內存數據結構市場規模每年將增長29.2%。
3. 機器學習
隨著大數據分析能力的進步,一些企業已經開始投資機器學習。機器學習是人工智能的一個分支,其重點在于允許計算機在沒有明確編程的情況下學習新事物。換句話說,它分析現有的大數據存儲庫以得出改變應用程序行為的結論。當今最先進的機器學習和人工智能系統正在超越傳統的基于規則的算法,以創建理解、學習、預測、自主操作系統。
4. 預測分析
預測分析與機器學習密切相關。實際上,機器學習系統經常為預測分析軟件提供引擎。在大數據分析的早期,企業正在回顧其數據,看看發生了什么,然后他們開始使用分析工具來調查為什么發生這些事情,而預測分析則更進一步,可以使用大數據分析來預測未來會發生什么。
5. 大數據智能應用程序
企業使用機器學習和人工智能技術的另一種方式是創建智能應用程序。這些應用程序通常包含大數據分析,分析用戶以前的行為,以提供個性化和更好的服務。現在人們非常熟悉的一個例子是當前推動許多電子商務和娛樂應用程序的推薦引擎。
6. 智能安全
許多企業也將大數據分析納入其安全戰略中。組織的安全日志數據提供了有關過去的網絡攻擊的寶貴信息,企業可以使用這些信息來預測、預防和減輕未來的攻擊。因此,一些組織正在將其安全信息和事件管理(SIEM)軟件與Hadoop等大數據平臺進行整合。其他公司正在轉向采用安全廠商提供的服務,其產品包含大數據分析功能。
7. 物聯網
物聯網也可能對大數據產生相當大的影響。隨著新設備和應用程序的上線運行,企業將會體驗到比以往更快的數據增長。許多企業需要新技術和系統,以便能夠處理和理解來自物聯網部署的大量數據。
8. 邊緣計算
一種可以幫助企業處理物聯網大數據的新技術是邊緣計算。在邊緣計算中,大數據分析與物聯網設備和傳感器非常接近,而不是在數據中心或云端。對于企業來說,這提供了一些重要的好處:網絡數據流量較少,可以提高性能,并節省云計算成本。它允許組織刪除只在有限的時間內具有價值的物聯網數據,減少存儲和基礎設施成本。邊緣計算還可以加快分析過程,使決策者能夠比以前更快地采取行動。
9. 自助服務
隨著聘請行業專家的成本不斷上升,許多組織可能正在尋找工具,讓普通工作人員能夠滿足大數據分析需求。IDC公司此前曾預測,可視化數據發現工具的增長速度將比商業智能(BI)市場的增長速度快2.5倍,在2018年,對推動終端用戶自助服務的投資已成為所有企業的需求。一些供應商已經推出了具有“自助服務”功能的大數據分析工具。隨著大數據分析越來越融入企業各個部門的人員工作中,IT部門可能會越來越少地參與到此過程中。