- 大數據時代的互聯網架構設計
- 劉輝
- 14211字
- 2019-12-05 15:53:28
第一節 大數據概述
一、大數據的概念與特征
(一)大數據的概念
對于“大數據”(Big Data),研究機構Gartner給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和低價值密度四大特征。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。對大數據必然無法用單臺的計算機進行處理,而必須采用分布式架構。分布式架構的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。
隨著云時代的來臨,大數據也引起了越來越多的關注。著云臺分析師團隊認為,大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,將這些數據下載到關系型數據庫用于分析時會花費很多時間和金錢。大數據分析常和云計算聯系在一起,因為要進行實時的大型數據集分析,需要有像MapReduce(簡稱MR)一樣的框架來向數十、數百甚至數千的電腦分配工作。
(二)大數據的特征
當前,較為統一的認識是大數據有四個基本特征:數據量(Volume)大,數據類型(Variety)多,數據處理速度(Velocity)快,數據價值密度(Value)低,即所謂的“4V”特性。這些特性使得大數據有別于傳統的數據概念。大數據的概念與“海量數據”不同,后者只強調數據的量,而大數據不僅用來描述大量的數據,而且更進一步指出數據的復雜形式、數據的快速時間特性以及對數據進行專業化處理以最終獲得有價值信息的能力。
1.數據量大
大數據聚合在一起的數據量是非常大的,根據IDC的定義,至少要有超過100TB的可供分析的數據才能被稱為大數據,數據量大是大數據的基本屬性。導致數據規模激增的原因有很多。首先是隨著互聯網的廣泛應用,使用網絡的人、企業、機構增多,數據獲取、分享變得相對容易。以前,只有少量的機構可以通過調查、取樣的方法獲取數據,同時發布數據的機構也很有限,人們難以在短期內獲取大量的數據。而現在,用戶可以通過網絡非常方便地獲取數據,同時用戶通過有意地分享和無意地點擊、瀏覽都可以快速地提供大量數據。其次是隨著各種傳感器的數據獲取能力大幅提高,人們獲取的數據越來越接近原始事物本身,描述同一事物的數據激增。早期的單位化數據,對原始事物進行了一定程度的抽象,數據維度低,數據類型簡單,多采用表格的形式來收集、存儲、整理,數據的單位、量綱和意義基本統一,存儲、處理的只是數值而已,因此數據量有限,增長速度慢。而隨著數據應用的發展,數據維度越來越高,描述相同事物所需的數據量越來越大。以當前最為普遍的網絡數據為例,早期,網絡上的數據以文本和一維的音頻為主,維度低,單位數據量小。近年來,圖像、視頻等二維數據大規模涌現,而隨著三維掃描設備以及Kinect等動作捕捉設備的普及,數據越來越接近真實的世界,數據的描述能力不斷增強,數據量本身必將以幾何級數增長。此外,數據量大還體現在人們處理數據的方法和理念發生了根本改變。早期,人們對事物的認知受限于獲取、分析數據的能力,人們一直利用采樣的方法,以少量的數據來近似地描述事物的全貌,樣本的數量可以根據數據獲取、處理能力來設定。不管事物多么復雜,只要通過采樣得到部分樣本,使數據規模變小,就可以利用當時的技術手段來進行數據管理和分析。如何通過正確的采樣方法以最小的數據量盡可能分析整體屬性成了當時的重要問題。隨著技術的發展,雖然樣本數目逐漸逼近原始的總體數據,但在某些特定的應用領域,采樣數據可能遠不能描述整個事物,反而丟掉大量重要細節,甚至可能使人們得到完全相反的結論。因此,當今有直接處理所有數據而不是只考慮采樣數據的趨勢。使用所有數據可以帶來更高的精確性,從更多的細節來解釋事物屬性,同時也必然使得要處理的數據量顯著增多。
2.數據類型多
數據類型繁多,復雜多變是大數據的重要特性。以往的數據盡管數量龐大,但通常是事先定義好的結構化數據。結構化數據是將事物向便于人類和計算機存儲、處理、查詢的方向抽象的結果。在抽象的過程中,忽略一些在特定的應用下可以不考慮的細節,抽取了有用的信息。處理此類結構化數據,只需事先分析好數據的意義以及數據間的相關屬性,構造表結構來表示數據的屬性。數據都以表格的形式保存在數據庫中,數據格式統一,以后不管再產生多少數據,只需根據其屬性,將數據存儲在合適的位置,都可以方便地處理、查詢,一般不需要為新增的數據顯著地更改數據聚集、處理、查詢方法,限制數據處理能力的只是運算速度和存儲空間。這種關注結構化信息,強調大眾化、標準化的屬性使得處理傳統數據的復雜程度呈線性增長,新增的數據可以通過常規的技術手段處理。而隨著互聯網與傳感器的飛速發展,非結構化數據大量涌現,非結構化數據沒有統一的結構屬性,難以用表結構來表示,在記錄數據數值的同時還需要存儲數據的結構,這增加了數據存儲、處理的難度。而時下在網絡上流動著的數據大部分是非結構化數據,人們上網不只是看看新聞,發送文字郵件,還會上傳下載照片、視頻,發送微博等非結構化數據。同時,存在于工作、生活中各個角落的傳感器也不斷地產生各種半結構化、非結構化數據,這些結構復雜,種類多樣,同時規模又很大的半結構化、非結構化數據逐漸成為主流數據。非結構化數據量已占數據總量的75%以上,且非結構化數據的增長速度比結構化數據快10倍到50倍。在數據激增的同時,新的數據類型層出不窮,已經很難用一種或幾種規定的模式來表征日趨復雜、多樣的數據形式,這樣的數據已經不能用傳統的數據庫表格來整齊地排列、表示。大數據正是在這樣的背景下產生的,大數據與傳統數據處理最大的不同就是是否重點關注非結構化信息,大數據關注包含大量細節信息的非結構化數據,強調小眾化、體驗化的特性使得傳統的數據處理方式面臨巨大的挑戰。
3.數據處理速度快
快速處理數據,是大數據區別于傳統海量數據處理的重要特性之一。隨著各種傳感器和互聯網絡等信息獲取、傳播技術的飛速發展與普及,數據的產生、發布越來越容易,產生數據的途徑增多,個人甚至成了數據產生的主體之一。數據呈爆炸的形式快速增長,新數據不斷涌現,快速增長的數據量要求數據處理的速度也相應地提升,以使大量的數據得到有效的利用,否則不斷激增的數據不但不能為解決問題帶來優勢,反而會成為快速解決問題的負擔。同時,數據不是靜止不動的,而是在互聯網絡中不斷流動的,且通常這樣的數據的價值是隨著時間的推移而迅速降低的。如果數據尚未得到有效的處理,就會失去價值,大量的數據就沒有意義了。此外,許多應用要求能夠實時處理新增的大量數據,比如有大量在線交互的電子商務應用,就具有很強的時效性。大數據以數據流的形式產生,快速流動,迅速消失,且數據流量通常是不穩定的,會在某些特定時段突然激增,數據的涌現特征明顯。而用戶對于數據的響應時間通常非常敏感,心理學實驗證實,從用戶體驗的角度看,瞬間(3秒鐘)是可以容忍的最大極限。對于大數據應用而言,很多情況下都必須要在1秒鐘或者瞬間形成結果,否則處理結果就是過時和無效的。這種情況下,大數據就要快速、持續地實時處理。對不斷激增的海量數據的實時處理要求,是大數據與傳統海量數據處理技術的關鍵差別之一。
4.數據價值密度低
數據價值密度低是大數據關注的非結構化數據的重要屬性。傳統的結構化數據,依據特定的應用,對事物進行了相應的抽象,每一條數據都包含該應用需要考量的信息;而大數據為了獲取事物的全部細節,不對事物進行抽象、歸納等處理,直接采用原始的數據,保留了數據的原貌,且通常不對數據進行采樣,直接采用全體數據。減少采樣和抽象,呈現所有數據和全部細節信息,有助于分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯誤的信息,因此相對于特定的應用,大數據關注的非結構化數據的價值密度偏低。以當前廣泛應用的監控視頻為例,在連續不間斷的監控過程中,大量的視頻數據被存儲下來,許多數據可能無用,對于某一特定的應用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數據可能只有一兩秒,大量不相關的視頻信息增加了獲取這有效的一兩秒數據的難度。而大數據的數據密度低是指對于特定的應用,有效的信息相對于數據整體是偏少的,信息有效與否也是相對的,對于某些應用無效的信息,對于另外一些應用則成為最關鍵的信息。數據的價值也是相對的,有時一個微不足道的細節數據就可能造成巨大的影響,比如網絡中的一條幾十個字符的微博,就可能通過轉發而快速擴散,導致相關信息大量涌現,其價值不可估量。因此,為了保證對于新產生的應用有足夠的有效信息,通常需保存所有數據。這樣,一方面使得數據的絕對數量激增;另一方面,使得數據的有效信息的比例不斷降低,數據價值密度降低。
從4V角度可以很好地看到傳統數據與大數據的區別,如表1-1所示。
表1-1 傳統數據與大數據的區別

(三)大數據的來源與類型
大數據的數據可以來自泛互聯網、物聯網、行業或企業。泛互聯網的數據主要由門戶網站、電子商務網站、視頻網站、博客系統、微博系統等產生的數據構成。這些數據總量一般在PB級到EB級之間,數據量龐大。物聯網的數據主要由具有信息采集功能的電子設備產生的數據構成,如攝像頭、刷卡設備、傳感設備、遙感設備等,這些設備產生的數據價值密度低,但其數據量更龐大,通常是在EB級,如何存儲和處理這些數據是大數據面臨的挑戰。行業或企業的數據主要是管理信息系統產生的數據,常用的管理信息系統包括ERP(Enterprise Resource Planning,企業資源計劃)系統、CRM(Customer Relationship Management,顧客關系管理)系統、OA(Office Automation,辦公自動化)系統和運營系統等,數據總量一般在GB級和TB級之間。
大數據的數據類型主要有非結構化數據、半結構化數據、結構化數據三種。非結構化數據由圖片、文字、音頻、視頻、日志和網頁等內容構成,以文件為單位存儲,非結構化數據是存儲在分布式文件系統中的。半結構化數據由位置、視頻、溫度等內容構成,以數據流的形式進入處理系統,處理后也以文件為單位存儲,半結構化數據同樣也是存儲在分布式文件系統中的。結構化數據的內容可以是任何事和物的記錄信息,以表格的形式存在,結構化數據一般存儲在分布式數據庫系統中。對于不同類型的數據,通常可以采用分布式文件或分布式數據庫進行存儲,采用關系型記錄、文本文件或流數據進行數據處理。對于內容構成不同的數據類型,其應用算法也會有所不同。
(四)大數據實例
大數據并非是用于激勵和迷惑IT一族的抽象概念,它是世界各地數字活動雪崩的結果。很多數據都是我們在不經意間產生的,我們日常的一舉一動都會給大數據留下印記。
在現實的生活中,一分鐘也許微不足道,連沏一壺茶都不夠,但是數據的產生是一刻也不停歇的。讓我們看看美國數據分析公司Domo對于一分鐘內到底會有多少數據產生的總結:YouTube用戶上傳時長為48小時的新視頻;電子郵件用戶發送204166677條信息;Google(谷歌)收到超過2000000個搜索查詢請求;Facebook用戶分享684478條內容;消費者在網購上花費272070美元;Twitter用戶發送超過100000條微博;Apple(蘋果)收到大約47000個應用下載請求;Facebook上的品牌和企業收到34722個“贊”; Tumblr博客用戶發布27778個新帖子;Instagram用戶分享36000張新照片;Flickr用戶添加3125張新照片;Foursquare用戶執行2083次簽到;571個新網站誕生;WordPress用戶發布347篇新博文;移動互聯網獲得217個新用戶。
數據還在不停地增長,并且沒有慢下來的跡象。據中國互聯網數據中心統計:
(1)淘寶網每天同時在線的商品數量已經超過了8億件,平均每分鐘售出4.8萬件商品。
(2)Foursquare用戶簽到信息達到了200億條。
(3)Facebook網站上每天的評論達32億條,每天新上傳的照片達3億張。
(4)YouTube每天的頁面瀏覽次數達到20億次,一周上傳15萬部電影,每天上傳83萬段視頻。
(5)新浪微博注冊用戶已超過3億人,用戶平均每天發布超過1億條微博。
毫無疑問,地理空間數據奠定了地理信息產業的基礎。隨著數據的收集、分發、管理和處理技術的進步,地理信息數量呈現出指數級增長態勢。
1∶50000地形圖是我國的國家基本圖,是按規定要求覆蓋全部國土范圍的精度最高的地形圖。1∶50000基礎地理信息數據庫是由計算機系統管理的1∶50000地形圖系統。于2006年初步建成的1∶50000基礎地理信息數據庫,總數據量為5.3TB,相當于8000張光盤的存儲量。截至2011年,數據庫更新工程完成了19150幅1∶50000地形圖的數據更新與完善,對20多萬張航空相片和8000多景衛星遙感影像進行了信息處理,工程成果數據量達到12.3 TB。此項工程還建立了全新的數據庫管理和服務系統。
2006年,谷歌公司的一篇學術論文透露,谷歌地球(Google Earth)的數據量已達70.5TB,其中包括70TB的原始圖像和500GB的索引文件。而在2010年,據李開復估算,谷歌地球需要至少50萬TB(約等于500PB)的海量空間來存儲地表的圖像。
另外,還有一些新興的與位置相關的大數據。
(1)個人位置數據(Personal Location Data)。其主要來源是帶GPS(Global Positioning System,全球定位系統)芯片的設備、移動基站定位(可識別全球近50億臺移動設備的位置)。2009年,全球個人位置數據量已達1~3PB,并以每年20%的速度增長。據預測,到2020年,個人位置應用將為服務提供商帶來1000億美元的收入,為終端用戶創造7000億美元的價值。
(2)可地理定位的照片和視頻。地理標簽(Geotagging)是向照片、視頻、網站、短信息等添加地理標識元數據的過程,是一種地理空間元數據的形式。Flickr中有接近2億個具有地理標簽的照片和短視頻(PB級)。
(3)可地理定位的超文本網頁。地理編碼(Geocode)是地理空間屬性的組合,例如經度、緯度、海拔高度、坐標參照系、大地測量參考系等。維基百科中有超過544萬條具有地理編碼的條目(TB級)。
下面再來看看,EMC(易安信)等公司作為大數據背后的支持者,如何促使我們以全新的視角洞察我們的生活。
(1)過去十年,EMC公司發出了11.6 EB的存儲量,占發出的所有外部存儲容量的24%。產生大數據的領域主要包括醫學成像、數字音樂、數字圖片、智能電網、視頻監控、基因測序、社交媒體和手機傳感器等。
(2)紐約—泛歐交易所使用軟件對其在美國市場所處理的每一筆訂單進行分析和存檔。2011年,平均每天分析和存檔的訂單超過20億筆。
(3)Broad Institute(博德研究所)使用10PB的存儲容量執行基因測序。基因測序公司Ambry Genetics的數據量以每年100%的速度增長。
(4)Legend 3D(2D-3D介質轉換)曾經為《變形金剛》《藍精靈》《雨果》《蜘蛛俠》等賣座大片提供特效制作。電影制作過程中,400位藝術家的表演每周生成超過100TB的數據。
(5)美聯社提高了高清視頻的訪問速度。其數據量從2012年的800TB增加到2013年的2.5PB。
(6)2011年,LinkedIn(領英)會員在平臺上進行了近42億次專業化搜索。2012年這個數字超過了53億。
(7)依靠相關技術的支持,Silver Spring Networks(銀泉網絡)能夠在1分鐘時間內分析超過100萬個智能電表的數據。
(8)美國國家棒球名人堂博物館運營的平臺上存儲了50萬張照片、1.2萬小時的音頻和視頻、300萬個文檔和4萬個三維制品等。
(9)eBay(易貝)擁有900萬用戶,每天存儲和管理的對象超過5億個。
(10)JFX Archive存儲了840萬份來自個人、國會和總統的文件,以及4000萬份與政府有關的人員的文件。同時,檔案中還有40萬張照片、9000小時的錄音和1200小時的錄像。
(11)Stereo D公司和Deluxe Entertainment公司通過技術手段實現3D渲染。將來,3D電影的數據量有望達到10PB。
(12)由于交互式音頻和視頻內容市場的擴大,擁有200年歷史的出版商John Wiley and Sons在2010年到2011年期間存儲數據量從15TB增加到150TB。
(13)美國足球隊Fulham使用設備存儲所有閉路監控視頻,其使用的27個攝像頭的分辨率非常高,可以讀取60米遠的號碼牌。
(14)DigitalGlobe的圖像庫使用了2PB的存儲容量,存儲了18.7億平方千米的地球圖像。
(15)美國國會圖書館每年可對75萬到100萬條書目進行數字化。
(16)ComScore公司每個月可以處理1萬億份客戶記錄,遠遠超過2011年的每月4730億份。
二、大數據的發展與前景
(一)大數據的發展歷程
大數據作為一個專有名詞迅速成為全球的熱點,主要是因為近年來互聯網、云計算、移動通信和物聯網迅猛發展。無所不在的移動設備、無線傳感器、智能設備和科學儀器每分每秒都在產生數據,面向數以億計的用戶的互聯網服務時時刻刻都在產生大量的交互數據。要處理的數據量實在是太大,數據增長速度實在太快,而業務需求和競爭壓力對數據處理的實時性、有效性又提出了更高的要求,傳統的常規技術手段根本無法應付。圖1-1展示了大數據的發展歷程。

圖1-1 大數據的發展歷程
從2009年開始,大數據逐漸成為互聯網信息技術行業的關注熱點。2011年5月,麥肯錫全球研究院發布題為《大數據:創新、競爭和生產力的下一個前沿領域》的報告,正式提出了“大數據”這個概念。該報告描述了已經進入每個部門和經濟領域的數字型數據的狀態和其成長中的角色,并提出充分的證據表明大數據能顯著地為國民經濟做出貢獻,為整個世界經濟創造實質性的價值。
該報告深入研究了五個領域來觀察大數據是如何創造出價值的,并研究了大數據的變革潛力。這五個領域包括美國醫療衛生、歐洲聯合公共部門管理、美國零售業、全球制造業和個人地理位置信息。這五個領域不僅代表了全球經濟的核心領域,也說明了一系列區域性的觀點。通過對這五個領域的詳細分析,該報告提出了五個可以利用大數據的變革潛力創造價值的、廣泛適用的方法,具體如下。
(1)創造透明度,讓相關人員更容易地及時獲得大數據,以此來創造巨大的價值。
(2)通過實驗來發現需求、呈現可變性和增強績效。越來越多的公司在以數字化的形式收集和存儲大量非常詳細的商業交易數據。因為這樣不僅可以訪問這些數據,有時還可以控制數據生成的條件,所以最終的決策可能會截然不同。這其實就是將更加科學的方法引入管理中,特別是決策者可以設計和實施實驗,經過嚴格的定量分析后再做出決策。
(3)細分人群,采取靈活的行動。利用大數據,可以創建精細的分段,精簡服務,更精確地滿足顧客的需求。這種方法在市場和風險管理方面比較常見,像公共部門管理這樣的領域也可以借鑒。
(4)用自動算法代替或幫助人工決策。精密的分析算法能夠實質性地優化決策,減少風險,發掘有價值的觀點,而大數據能提供用于開發精密分析算法或算法需要操作的原始數據。
(5)創新商業模式、產品和服務。因為有了大數據,所以所有類型的企業都可以創新產品和服務,改善現有的產品和服務,并開發全新的商業模式。
這份報告在互聯網上引起了強烈的反響。報告發布后,“大數據”迅速成為計算機行業的熱門概念。在此之后,包括IBM、Microsoft(微軟)、EMC等在內的國際IT巨頭公司紛紛通過收購大數據相關的廠商來實現技術整合,積極部署大數據戰略。2011年5月,EMC舉辦了主題為“云計算遇上大數據”的全球會議,IBM則發布了大數據分析軟件平臺InfoSphere BigInsights和InfoSphere Streams,將Hadoop開源平臺與IBM系統整合起來。2011年7月至8月,Yahoo(雅虎)、EMC及Microsoft先后推出了基于Hadoop的大數據處理產品。
2012年1月,大數據成為瑞士達沃斯全球經濟論壇的主題,論壇發布了一份題為《大數據,大影響》的報告,宣稱數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
2012年3月,美國政府宣布投資2億美元用于大數據領域,并把大數據定義為“未來的新石油”。白宮科技政策辦公室在2012年3月29日發布《大數據研究和發展計劃》,并組建“大數據高級指導小組”。此舉標志著美國把如何應對大數據技術革命帶來的機遇和挑戰,提高到國家戰略層面,形成全體動員格局。隨后在全球掀起了一股大數據的熱潮。
2012年7月,聯合國“全球脈動”計劃發布了《大數據促發展:挑戰與機遇》白皮書。該計劃旨在通過對互聯網實時數據的分析,更及時地了解人們所面臨的困難和挑戰,并提出改善這些境況的決策,為宏觀經濟的發展決策提供支持。
2012年10月,中國計算機學會成立了大數據專家委員會。委員會的宗旨包括三個方面:探討大數據的核心科學與技術問題,推動大數據學科方向的建設與發展;構建面向大數據產學研用的學術交流、技術合作與數據共享平臺;為相關政府部門提供大數據研究與應用的戰略性意見與建議。委員會還成立了五個工作組,分別負責大數據相關的會議(學術會議、技術會議)組織、學術交流、產學研用合作、開源社區與大數據共享聯盟等方面的工作。這標志著大數據在我國信息技術領域的地位得到確立。
(二)大數據的機遇與挑戰
對當今企業而言,大數據既是絕佳的商機,也是巨大的挑戰。當今企業的高速發展及數字世界所創造的海量數據,要求采用新方法從數據中提取價值。在結構化和非結構化數據流背后,隱藏著一些問題的答案。但是,企業甚至都沒有想到問這些問題,或者由于技術限制尚未能提出這些問題。大數據迫使企業尋找接近數據的新方式并一一找出其中蘊藏著什么以及如何對其加以利用。存儲、網絡和計算技術領域的最新發展使得企業能經濟、高效地利用大數據并使其成為形成業務優勢的有力來源。
Forrester Research公司估計,企業僅能有效利用不到5 %的可用數據,這是因為要處理其余數據的代價不菲。大數據的技術和方法是一項重要進步,因為它們使得企業能經濟高效地處理被忽視的那95%的數據。如果兩家公司以相同的效率利用數據,其中一家處理15%的數據,而另一家只能處理5%,哪家公司更有可能勝出?企業若能發掘大數據來改善戰略并提升執行能力,也就代表他們正在拉開與競爭者的距離。
如果使用正確,大數據可以帶來洞察力,從而有助于制定、改善和重導業務計劃,發現運營路障,簡化供應鏈,更好地理解客戶,開發新的產品、服務和業務模式。盡管企業對大數據的有用性有了清晰的認識,但通往大數據生產率的道路仍不明確。成功利用大數據洞察力要求在成熟技術、新式工作人員技能和領導力重心方面具有實際投入。
企業嗅到了大數據蘊藏的商業價值,并清楚地認識到必須加快將大數據進化成超越傳統意義的商業智能,方法就是在每個決策核心中應用數據分析。
以消費品生產和零售業為例,從20世紀70年代到80年代早期,包裝消費品生產商和零售商在經營業務時會參考AC Nielsen半月刊市場報告。這些報告提供了競爭對手和市場的數據(如收入、銷售量、平均價格和市場份額等),生產商借此來確定銷售、營銷、廣告和促銷戰略、計劃,以及與渠道合作伙伴(如分銷商、批發商和零售商)相關的開支。到20世紀80年代中期,Information Resources Inc.(IRI)推行在零售地點安裝免費的銷售點掃描器,俗稱“POS機”,以交換其中的銷售數據。零售商愉快地接受了這樣的交換,因為勞動力是他們的最大成本構成,而且那時他們對POS機數據的價值認識很有限。這種在當時被視為大數據的POS機數據改變了游戲規則、經營業務方式,行業內(在生產商和銷售商之間)的權力也發生了轉變。數據量從MB級上升到TB級,催生了新一代存儲和服務器平臺,以及各種分析工具。沃爾瑪等前沿公司利用這種新的大數據和新的分析平臺與工具獲得了競爭優勢。這些公司率先開發了新類別的大數據、分析驅動型業務應用程序,以一種具有成本效益的方式解決了之前不能如此解決的業務問題,例如基于需求的預測、供應鏈優化、交易支出有效性分析、市場購物籃分析、分類管理和商品陣列優化、價格/收益優化、商品減價管理、客戶忠誠度計劃等。30年后,一切似乎又回到了從前。對新的、低延遲的、細粒度的、多樣化的數據源(大數據)的開發具有改變企業和行業運營方式的潛力。這些新的數據源來自于一系列設備、客戶交互和業務活動,能揭示對企業和行業價值鏈的深刻見解。隨著這些更詳細的新數據源的出現,各大企業又發現了以前未察覺的商機,引發了創造新業務應用程序系列的熱潮。然而,要實現這一切,還需要新的平臺(基礎架構)和工具(分析)。
數據需要一種可以讓業務和技術都獲得競爭優勢的新型分析平臺。新平臺對海量數據集具有更高級別的處理能力,不僅能讓企業不斷地對大數據內蘊藏的可操作性提出深刻見解,還能實現與用戶網絡環境的無縫集成(無位置限制)。這種新的分析平臺能夠讓企業的對海量數據和改進業務決策進行前瞻式預測分析,讓企業從回顧性報告的舊方式中解脫出來。
然而,處理新的大數據,對平臺提出了如下三個重大的挑戰。
1.線性可擴展性支持分析大型數據集
(1)可實現對大規模數據集(TB級到PB級)的分析。這至關重要,因為多數大數據項目開始的時候規模很小,但隨著業務部門的持續使用,規模會迅速變大。
(2)對海量數據的利用意味著能以完全不同的方式解決業務問題。
2.低延遲數據訪問有助于加快決策
(1)許多商機都是一閃即逝的,所以只有那些能夠最快地從數據中發現商機并采取行動的企業才能實現商業價值。
(2)縮短數據事件與數據可供使用這兩者之間的時間,讓運營分析成為現實。
3.集成數據分析幫助實現新業務應用程序
(1)將分析集成到與數據倉庫和商情相同的環境中,將加快分析生命周期流程,并使分析結果更快地實現可操作化或能夠據此采取行動。
(2)業務用戶對數據、圖表和報告選項的需求已經飽和,不管如何優雅地推出它們,都沒有太多必要了。業務用戶需要的是一種能為其業務找出并提供可操作的實質性見解的解決方案。
新平臺幫助實現分析的數據類型讓企業可以大大加快分析過程,并且更輕松地將分析結果重新集成到數據倉庫和商情環境中。在此過程中,它將帶來一些新的商機。
大數據是一股席卷所有行業、領域和經濟體的“破壞性”力量。不僅企業信息技術體系結構需要改變以適應它,而且幾乎企業內的所有部門都需要針對其提供的信息、揭示的洞察力做出調整。數據分析將成為業務流程的一部分,而不再是僅由經過培訓的專業人員履行的獨特職能。
而這僅僅是開始。一旦企業開始利用大數據獲得洞察力,他們根據該洞察力采取的行動就將具有改進業務的潛能,這一點目前已得到證實。如果營銷部門能通過分析社交網絡評論獲得對有關新品牌推廣活動的即時反饋,焦點小組訪談和客戶調查是否會變得過時?敏銳地了解到大數據價值的新公司不僅會給現有的競爭對手帶來挑戰,還可以開始定義所在行業的經營方式。隨著企業努力、快速地理解之前所不能捕獲的概念,如情感和品牌認知,企業與客戶關系也將發生轉變。
發揮大數據的巨大潛能要求對數據管理、分析和信息智能進行全盤考慮。在各個行業,領先利用大數據的企業將能提升運營效率,開創新的收入流,發掘差異競爭優勢及全新的業務模式。企業應開始從戰略角度考慮如何針對大數據準備其發展。
(三)大數據的發展前景
大數據由于其本身附帶或隱含特殊的價值,被類比為新時代的石油、黃金,甚至被視為“一種與資本與勞動力并列的新經濟元素”。也就是說,大數據不僅在生產過程中形成產品和產生價值的環節中起著重要的作用,而且其本身更是作為像資本和勞動力這樣的生產要素,是產品生產中不可或缺的元素,也是最終產品中不可分割的一部分。
賽迪顧問公司2012年的《大數據產業生態戰略研究》報告指出,大數據將在以下三個方面發揮巨大的作用。
1.大數據為新一代信息技術產業提供核心支撐
大數據問題的爆發以及大數據概念在全球的普及,是現代信息技術發展的必經階段。互聯網以及移動網絡的飛速發展使得網絡基礎設施無所不在,網絡帶寬也在不斷拓展。最新的移動4G LTE網絡將支持166 Mbps的峰值下載速度,下載一部藍光電影只需4分鐘,這使得人們能夠隨時隨地進行數據訪問。而云計算、物聯網、社交網絡等新興事物的興起和發展,則使得每時每刻都在以前所未有的速度產生新數據。比如隨著智能電表的普及,電表數據的采集頻率由原來的一天一次增加到每15分鐘一次,也就是一天96次,總的數據采集規模將達到原來的近2萬倍。大數據是信息技術和社會發展的產物,而大數據問題的解決又會促進云計算、物聯網等新興信息技術的真正落地和應用。大數據正成為未來新一代信息技術融合應用的核心,為云計算、物聯網、移動互聯網等各項新一代信息技術相關的應用提供堅實的支撐。
2.大數據正成為社會發展和經濟增長的高速引擎
大數據蘊含著巨大的社會、經濟和商業價值。大數據市場的井噴會催生一大批面向大數據市場的新模式、新技術、新產品和新服務,進而促進信息產業的加速發展。同時大數據影響著我們工作、生活和學習的方方面面,大到國家發展戰略、區域經濟發展以及企業運營決策,小到個人每天的生活。
從國家發展戰略層面上來說,大數據對于全球經濟、國計民生、政策法規等方面都至關重要,美國政府把大數據的研究和發展上升到國家戰略層面正是出于這方面的考慮。實際上,奧巴馬競選連任的成功,就是依賴大數據的威力。奧巴馬團隊在競選取勝中發揮重要作用的數據分析團隊被稱為“核代碼”,其重要性顯而易見。在大選前的兩年中,他的數據分析團隊就一直在收集、存儲和分析選民數據。大選中的很多戰略方案都是通過分析這些數據制定出來的,包括如何籌集競選資金,如何進行廣告投放,如何拉攏搖擺州選民和制定相應的宣傳策略、奧巴馬在競選后期應當在什么地方展開活動等。
在區域規劃及城市發展方面,大數據在我國正在大力建設的“智慧城市”中將扮演不可或缺的角色。智慧城市的本質是將各行各業的數據關聯打通,從中分析挖掘出模式和智能,從而形成城市的智慧聯動。而其中從數據的采集到數據的分析挖掘,以及形成智能決策的每個過程,都離不開大數據的支撐。智慧城市的建設,將有力地促進政務及社會化管理,改進民生,發展生產,形成一系列有地方特色的、有清晰運營模式的新一代智能行業應用。
在企業發展方面,大數據將助力企業深度挖掘和利用數據中的價值,完成智能決策,在企業運營中提高效率,節省成本;在市場競爭中制定正確的市場戰略,把握市場先機,規避市場風險;在市場營銷中全面掌握用戶需求,進行精準營銷和個性化服務。企業的決策正在從“應用驅動”轉向“數據驅動”,能夠有效利用大數據并將其轉化為生產力的企業,將具備核心競爭力,成為行業領導者。
在個人生活方面,大數據已經深入與我們生活息息相關的各個領域,如休閑娛樂、教育、健康等領域,都能見到大數據的應用。智能終端的普及更是讓我們和大數據的接觸就在指掌之間。比如我們每天發布微博、更新動態,用微信和朋友進行語音、文字、圖片的互動,參與線上課程,帶上健康監控手環監控心跳及睡眠的狀況等,這些都離不開大數據平臺對數據存儲、交互和分析的支撐。
3.大數據將成為科技創新的新動力
各行業對大數據的實際需求能夠孵化和衍生出一大批新技術和新產品,來解決面臨的大數據問題,促進科技創新。同時,對數據的深度利用,將幫助各行業從數據中挖掘出潛在的應用需求、商業模式、管理模式和服務模式,這些模式的應用將成為開發新產品和新服務的驅動力。云計算及大數據平臺的建設和發展,也為科技創新提供了極大的便利條件。比如新型大數據應用的開發,由于大數據的存儲、分析都有相應的提供商和接口,開發者只需將精力集中在應用模式和界面上,這將大大降低開發難度,節省開發成本,縮短開發周期。各國政府及行業也在積極推動開放數據。比如美國啟動開放政府計劃,建立了“www.data.gov”網站,將政府運營的相關數據全部發布在網站上,人們能夠方便地查找、下載和使用這些數據。實踐證明,開放數據能夠使公共數據更加有效地得到利用,能夠促進數據交叉融合,也將催生新的創新點。
(四)大數據變革及趨勢
1.基于內存處理的架構
大數據技術的核心是采用分布式技術、并行技術,將數據化整為零,分散處理,而不是依賴單一強大的硬件設備來集中處理。例如,Hadoop平臺就是基于廉價個人計算機(Personal Computer, PC)構建的支持大數據的分布式并行存儲和計算集群。而目前,以Berkeley大學為首的學院派卻提出了更為先進的大數據技術解決方案。Berkeley大學開發的Spark平臺比Hadoop的處理性能高100倍,算法實現也要簡單很多。同樣都是基于MapReduce框架,Spark為何能夠比Hadoop效率高近百倍?原因是Spark特有的內存使用策略,即所有的中間結果都盡量使用內存進行存儲,避免了費時的中間結果寫盤操作。Spark已經成為Apache孵化項目,并得到了包括IBM、Yahoo在內的互聯網大公司的支持,這說明該策略正逐漸被業界人士所認同。而Berkeley提出的Tachyon項目則更是將內存至上理論發揮到了極致。Tachyon是一個高容錯的分布式文件系統,允許文件以內存的速度在集群框架中進行可靠的共享。Tachyon工作集文件緩存在內存中,并且讓不同的Jobs/Queries以及框架都能以內存的速度來訪問緩存文件。因此,Tachyon可以減少需要通過訪問磁盤來獲得數據集的次數。
通過最大化地利用內存,將傳統系統中磁盤I/O導致的性能損耗全部屏蔽,因此,系統的性能提升上百倍是完全可能的。但人們在將內存作為主數據存儲時,總會面臨以下兩個問題。
(1)如何滿足存儲量的需求?
目前,隨著硬件技術的發展,高容量內存的制造成本大大降低,即使在家庭電腦上也可以輕易讀取到8GB乃至16GB內存。可以預言,不出10年,TB級的內存將被普及,那時數據內存存儲量也許將不再是問題。
(2)內存是易失性存儲,數據如何持久化?
在斷電或突發狀況下,內存數據將會丟失,這是人們不愿意使用內存作為主數據存儲的主要原因之一。從單機角度來看,內存存儲數據確實存在極大的風險,解決該問題可以從兩個角度考慮。
首先,要明確數據持久化的含義到底是什么。傳統的思路認為,數據持久化就是將數據放置到硬盤等介質中。但就持久化的本意而言,數據如果能夠隨時被讀出,保證不丟失,我們就可以稱之為數據持久化。因此,當系統從單機架構轉為分布式架構時,可以認為只要保證在任何時間集群中至少有一份正確數據可以被讀取,則系統就是持久化的。例如Hadoop的多數據備份,就是大數據技術下持久化概念的體現。所以在大數據時代,可以通過分布式多份存儲的方式保證數據的完整性和可靠性。
其次,隨著固態硬盤(Solid State Drives, SSD)的全面普及,內存加SSD的硬件架構體系將應用得越來越多。充分利用內存進行快速讀寫,同時使用順序寫的方式在SSD中進行操作記錄,保證機器恢復時能夠通過日志實現數據重現,也是實現內存數據持久化的一種有效方案。
綜上所述,隨著硬件的發展以及分布式系統架構的普及,如何更好地利用內存,提高計算效率,將是大數據技術發展中的重要問題。
2.實時計算將蓬勃發展
大數據問題的爆發催生了像Hadoop這樣的大規模存儲和處理系統,以及其在世界范圍內的普及與應用,然而這類平臺只是解決了基本的大數據存儲和海量數據離線處理的問題。隨著數據的不斷增多,以及各行業對數據所隱藏的巨大價值潛力的不斷認知和發掘,人們對大數據處理的時效性需求將不斷增加。在當今快速發展的信息世界里,企業的生死存亡取決于其分析數據并據此做出清晰而明智決策的能力。隨著決策周期的持續縮短,許多企業無法等待緩慢的分析結果。比如,在線社交網站需要實時統計用戶的連接、發帖等信息;零售企業需要在幾秒鐘而不是幾個小時之內根據客戶數據制定促銷計劃;金融服務企業需要在幾分鐘而不是幾天內完成在線交易的風險分析。未來的大數據技術必須為實時應用和服務提供高速和連續的數據分析和處理。
3.大數據交互方式移動化、泛在化
隨著大數據后臺處理能力和時效性的不斷提高,以及各行業數據的全面采集和深度融合,數據的多維度、全方位的分析和展示將形成。而飛速發展的移動互聯網,尤其是普及的移動終端和4G技術,能夠在功能上將數據的展示交互與后臺處理有效地分離,但同時又能將它們通過移動網絡高效地聯結起來。當今正在崛起的可穿戴設備和技術能夠隨時隨地感知或采集我們周圍的環境信息及我們自身的數據,并將它們與云端的存儲和處理相結合,以提供實時的工作、生活、休閑、娛樂、醫療健康等各方面的數據交互服務。可以預見,未來大數據的采集、展現和交互必將朝著移動化的、即時的、泛在的方向發展。