書名: 大數據財務分析(第2版·微課版)作者名: 張立軍 李瓊 侯小坤主編本章字數: 635字更新時間: 2024-02-26 14:48:34
一、大數據的定義和特征
麥肯錫全球研究所認為:大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件能力范圍的數據集合,具有大量(Volume)、高速(Velocity)、多樣(Variety)和價值(Value)密度低四大特征。大數據的這四大特征也稱作“4V”特征,如圖1-1所示。

圖1-1 大數據的“4V”特征
(一)大量
所謂大量,指的是數據具有海量規模。如圖1-2所示,日常生活中,我們所有的行為都隨時隨地在產生數據,例如掃碼消費產生的數據、瀏覽網頁和搜索信息產生的數據、在微博和朋友圈等社交平臺發表動態產生的數據,或者在醫院就診產生的數據等。全球每年大約產生5萬億GB的數據。

圖1-2 大數據的特征——“大量”
(二)高速
所謂高速,是指大數據產生和處理的速度快。例如,在淘寶或京東等購物網站上輸入要購買的商品名稱,一秒鐘之內就會返回所有符合條件的結果。大數據的處理速度隨著分布式技術的發展越來越快。
(三)多樣
所謂多樣,指的是數據種類繁多,來源廣泛。如圖1-3所示,生活中常見的圖片、視頻、聲音、文件等都是數據。概括而言,這些數據可以劃分成結構化數據、半結構化數據和非結構化數據等不同類型,后面介紹數據類型時將詳細說明。

圖1-3 大數據的特征——“多樣”
(四)價值密度低
所謂價值密度低,是指大數據雖然規模龐大,但是有價值的信息所占比例較小。大數據的重點不在于其數據量的增長,而是在信息爆炸時代對數據價值的再挖掘,如何挖掘出大數據的有效信息,才是至關重要的。例如,超市內的監控設備每時每刻都在記錄數據,但真正有價值的數據可能就幾秒鐘。