1.1.4 用3V描述大數據特征
從字面來看,“大數據”這個詞可能會讓人覺得只是容量非常大的數據集合而已。但容量只不過是大數據特征的一個方面,如果只拘泥于數據量,就無法深入理解當前圍繞大數據所進行的討論。因為“用現有的一般技術難以管理”這樣的狀況,并不僅僅是由于數據量增大這一個因素所造成的。
IBM說:“可以用3個特征相結合來定義大數據:數量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V,即龐大容量、極快速度和種類豐富的數據”如圖1-3所示。
1.Volume(數量)
用現有技術無法管理的數據量,從現狀來看,基本上是指從幾十TB到幾PB這樣的數量級。當然,隨著技術的進步,這個數值也會不斷變化。
如今,存儲的數據數量正在急劇增長中,人們存儲所有事物包括:環境數據、財務數據、醫療數據、監控數據等。有關數據量的對話已從TB級別轉向PB級別,并且不可避免地會轉向ZB級別。但是,隨著可供企業使用的數據量不斷增長,可處理、理解和分析的數據的比例卻不斷下降。

圖1-3 按數量、種類和速度來定義大數據
2.Variety(種類、多樣性)
隨著傳感器、智能設備以及社交協作技術的激增,企業的數據也變得更加復雜,因為它不僅包含傳統的關系型數據,還包含來自網頁、互聯網日志文件(包括單擊流數據)、搜索索引、社交媒體論壇、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。
種類表示所有的數據類型。其中,爆發式增長的一些數據,如互聯網上的文本數據、位置信息、傳感器數據、視頻等,用企業中主流的關系型數據庫是很難存儲的,它們都屬于非結構化數據。
當然,在這些數據中,有一些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數據進行分析,并從中獲得有用的信息,例如監控攝像機中的視頻數據。近年來,超市、便利店等零售企業幾乎都配備了監控攝像機,最初目的是為了防范盜竊,但現在也出現了使用監控攝像機的視頻數據來分析顧客購買行為的案例。
例如,美國高級文具制造商萬寶龍(Montblane)過去是憑經驗和直覺來決定商品陳列布局的,現在嘗試利用監控攝像頭對顧客在店內的行為進行分析。通過分析監控攝像機的數據,將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。
3.Velocity(速度)
數據產生和更新的頻率,也是衡量大數據的一個重要特征。就像搜集和存儲的數據量和種類發生了變化一樣,生成和需要處理數據的速度也在變化。不要將速度的概念限定為與數據存儲相關的增長速率,應動態地將此定義應用到數據,即數據流動的速度。有效處理大數據需要在數據變化的過程中對它的數量和種類進行分析,而不只是在它靜止后執行分析。
例如,遍布全國的便利店在24h內產生的POS機數據、電商網站中由用戶訪問所產生的網站點擊流數據、高峰時達到每秒近萬條的微信短文、全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結冰、積雪等路面狀態)等,每天都在產生著龐大的數據。
IBM在3V的基礎上又歸納總結了第四個V——Veracity(真實和準確)。只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。
IDC(互聯網數據中心)說:“大數據是一個貌似不知道從哪里冒出來的大的動力。但實際上,大數據并不是新生事物。然而,它確實正在進入主流,并得到重大關注,這是有原因的。廉價的存儲、傳感器和數據采集技術的快速發展、通過云和虛擬化存儲設施增加的信息鏈路,以及創新軟件和分析工具,正在驅動著大數據。大數據不是一個‘事物’,而是一個跨多個信息技術領域的動力/活動。大數據技術描述了新一代的技術和架構,其被設計用于:通過使用高速(Velocity)的采集、發現和/或分析,從超大容量(Volume)的多樣(Variety)數據中經濟地提取價值(Value)。”
這個定義除了揭示大數據傳統的3V基本特征,還增添了一個新特征:Value(價值)。總之,大數據是個動態的定義,不同行業根據其應用的不同有著不同的理解,其衡量標準也在隨著技術的進步而改變。
從廣義層面上再為大數據下一個定義(見圖1-4):“所謂大數據,是一個綜合性概念,它包括因具備3V特征而難以進行管理的數據,對這些數據進行存儲、處理、分析的技術,以及能夠通過分析這些數據獲得實用意義和觀點的人才和組織。”

圖1-4 廣義的大數據
“存儲、處理、分析的技術”,指的是用于大規模數據分布式處理的框架Hadoop、具備良好擴展性的NoSQL數據庫,以及機器學習和統計分析等;“能夠通過分析這些數據獲得實用意義和觀點的人才和組織”,指的是目前十分緊俏的“數據科學家”這類人才,以及能夠對大數據進行有效運用的組織。
- 企業社會責任
- 新能源汽車試驗學
- 走進我們的大學:南昌理工學院
- 二維無機材料剝離、納米層組裝及其功能化
- 2020年考研英語(二)高分范文100篇【命題分析+答題攻略+強化訓練】
- 建筑形態構成
- 3ds Max+VRay動畫制作:建模、渲染與合成(全彩微課版)
- 國際關系學院714日語語言文學專業基礎歷年考研真題及詳解
- 建筑施工工藝
- 2020年河北公務員錄用考試專項教材:言語理解與表達【考點精講+典型題(含歷年真題)詳解】
- 高等數學·上冊(第2版)
- 會計學原理與實務
- 影視制作案例教程:中文版Premiere Pro CS6實戰精粹
- 李觀儀《新編英語教程(3)》(第3版)學習指南【詞匯短語+課文精解+全文翻譯+練習答案】
- 時裝設計師面輔料應用手冊