- 專業倫理與職業素養:計算機、大數據與人工智能
- 匡芳君 陳偉 周蘇主編
- 825字
- 2023-06-28 15:37:45
1.2.3 大數據的3V特征
從字面上看,“大數據”這個詞可能會讓人覺得只是容量非常大的數據集合而已,但容量大只不過是大數據特征的一個方面,如果只拘泥于數據量,就無法深入理解當前圍繞大數據所進行的討論。因為“用現有的一般技術難以管理”這樣的狀況,并不僅僅是由于數據量增大這一因素所造成的。
IBM稱:“可以用3個特征相結合來定義大數據:數量(Volume,或稱容量)、種類(Variety,或稱多樣性)和速度(Velocity),或者就是簡單的3V(見圖1-13),即龐大容量、種類豐富和極快速度的數據。”

圖1-13 按數量、速度和種類來定義大數據
(1)Volume(數量、容量)。如今,存儲的數據量在急劇增長中,存儲的數據包括環境數據、財務數據、醫療數據、監控數據等,數據量不可避免地會轉向ZB級別。可是,隨著可供企業使用的數據量不斷增長,可處理、理解和分析的數據的比例卻在不斷下降。
(2)Variety(種類、多樣性)。隨著傳感器、智能設備以及社交協作技術的激增,企業中的數據也變得更加復雜,因為它不僅包含傳統的關系型(結構化)數據,還包含來自網頁、互聯網日志文件(包括流數據)、搜索索引、社交媒體、電子郵件、文檔、主動和被動系統的傳感器數據等原始、半結構化和非結構化數據。當然,這些數據中有些是過去就一直存在并保存下來的。和過去不同的是,除了存儲,還需要對這些大數據進行分析,并從中獲得有用的信息。
(3)Velocity(速度)。數據產生和更新的頻率也是衡量大數據的一個重要特征。這里,速度的概念不僅是與數據存儲相關的增長速率,還應該動態地應用到數據流動的速度上。有效地處理大數據,需要在數據變化的過程中動態地對它的數量和種類執行分析。
在3V的基礎上,IBM又歸納總結了第四個V——Veracity(真實和準確)。“只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著新數據源的興起,傳統數據源的局限性被打破,企業越發需要有效的信息治理以確保其真實性及安全性。”
總之,大數據是個動態的定義,不同行業根據其應用的不同有著不同的理解,其衡量標準也在隨著技術的進步而改變。