1.2 大數據的四大特征
大數據具有4 V特征,即Volume(數據體量大)、Variety(數據類型繁多)、Velocity(數據產生的速度快)、Value(數據價值密度低)。
Volume指的是數據體量巨大。比如,一家3甲醫院的影像數據(這包括CT、B超、X光片、胃鏡、腸鏡等)可能就是幾百個TB,全國的醫療影像數據超過PB級別,接近EB級別。全球數據已進入ZB時代,IDC預計2020年全球數據量為40ZB。
Variety指的是數據類型繁多。這可分為結構化數據、半結構化數據和非結構化數據。結構化數據,即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達數據,比如企業財務系統、醫療HIS數據庫、環境監測數據、政府行政審批等等。非結構化數據,一般存儲在文件系統上,比如視頻、音頻、圖片、圖像、文檔、文本等形式。典型案例有:醫療影像系統、教育視頻點播、公安視頻監控、國土GIS、廣電多媒體資源管理系統等應用。半結構化數據,介于完全結構化數據(如關系型數據庫、面向對象數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據。比如郵件、HTML、報表等等,典型場景如郵件系統、教學資源庫、檔案系統等等。非結構化與半結構化數據的增長速率大于結構化數據,超過80%的數據是非結構化數據。IDC的報告顯示,目前大數據的1.8萬億GB容量中,非結構化數據占到了80%~90%,并且到2020年將以44倍的發展速度增加。非結構化數據比例不斷升高,這些數據中蘊含著巨大的價值。
Velocity是指大數據往往以數據流的形式動態、快速地產生,具有很強的時效性。數據自身的狀態與價值也往往隨時空變化而發生演變(這些數據往往包括了空間維、時間維等多種數據)。比如,環境監測中的水質和空氣質量數據、高速路卡口的視頻監測數據等。
Value是指數據已經成為一類新型資產,蘊藏著大價值。大數據的價值密度低,需要通過專業的技術手段進行挖掘。只有對其進行正確、準確的分析,才會帶來很高的價值回報。比如,電視機頂盒的頻道切換數據,各大電視臺分析其中的數據,從中準確判斷觀眾的喜好,以推出更加符合觀眾口味的節目。
大數據并非總是說有數百個TB才算得上。根據實際使用情況,有時候數百個GB的數據也可稱為大數據,這主要要看它的其他維度,也就是速度或者時間維度。假如能在1秒之內分析處理300GB的數據,而通常情況下卻需要花費1個小時的話,那么這種巨大變化所帶來的結果就會極大地增加價值。所謂大數據技術,就是至少實現這四個判據(特征)中的幾個。