官术网_书友最值得收藏!

1.2 大數據的四大特征

大數據具有4 V特征,即Volume(數據體量大)、Variety(數據類型繁多)、Velocity(數據產生的速度快)、Value(數據價值密度低)。

Volume指的是數據體量巨大。比如,一家3甲醫院的影像數據(這包括CT、B超、X光片、胃鏡、腸鏡等)可能就是幾百個TB,全國的醫療影像數據超過PB級別,接近EB級別。全球數據已進入ZB時代,IDC預計2020年全球數據量為40ZB。

Variety指的是數據類型繁多。這可分為結構化數據、半結構化數據和非結構化數據。結構化數據,即行數據,存儲在數據庫里,可以用二維表結構來邏輯表達數據,比如企業財務系統、醫療HIS數據庫、環境監測數據、政府行政審批等等。非結構化數據,一般存儲在文件系統上,比如視頻、音頻、圖片、圖像、文檔、文本等形式。典型案例有:醫療影像系統、教育視頻點播、公安視頻監控、國土GIS、廣電多媒體資源管理系統等應用。半結構化數據,介于完全結構化數據(如關系型數據庫、面向對象數據庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據。比如郵件、HTML、報表等等,典型場景如郵件系統、教學資源庫、檔案系統等等。非結構化與半結構化數據的增長速率大于結構化數據,超過80%的數據是非結構化數據。IDC的報告顯示,目前大數據的1.8萬億GB容量中,非結構化數據占到了80%~90%,并且到2020年將以44倍的發展速度增加。非結構化數據比例不斷升高,這些數據中蘊含著巨大的價值。

Velocity是指大數據往往以數據流的形式動態、快速地產生,具有很強的時效性。數據自身的狀態與價值也往往隨時空變化而發生演變(這些數據往往包括了空間維、時間維等多種數據)。比如,環境監測中的水質和空氣質量數據、高速路卡口的視頻監測數據等。

Value是指數據已經成為一類新型資產,蘊藏著大價值。大數據的價值密度低,需要通過專業的技術手段進行挖掘。只有對其進行正確、準確的分析,才會帶來很高的價值回報。比如,電視機頂盒的頻道切換數據,各大電視臺分析其中的數據,從中準確判斷觀眾的喜好,以推出更加符合觀眾口味的節目。

大數據并非總是說有數百個TB才算得上。根據實際使用情況,有時候數百個GB的數據也可稱為大數據,這主要要看它的其他維度,也就是速度或者時間維度。假如能在1秒之內分析處理300GB的數據,而通常情況下卻需要花費1個小時的話,那么這種巨大變化所帶來的結果就會極大地增加價值。所謂大數據技術,就是至少實現這四個判據(特征)中的幾個。

主站蜘蛛池模板: 延庆县| 宝兴县| 新野县| 张北县| 东丰县| 安龙县| 马边| 阳原县| 科技| 顺平县| 邢台县| 克什克腾旗| 天水市| 屏东县| 桦甸市| 大姚县| 邳州市| 邵东县| 额济纳旗| 达日县| 铜梁县| 泰宁县| 乌鲁木齐市| 遵化市| 都江堰市| 卫辉市| 新巴尔虎右旗| 寿阳县| 阳信县| 平罗县| 淮滨县| 阿巴嘎旗| 油尖旺区| 巫山县| 曲周县| 临清市| 萨嘎县| 湖州市| 宾川县| 申扎县| 屏边|