官术网_书友最值得收藏!

一、大數據的定義和特征

麥肯錫全球研究所認為:大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件能力范圍的數據集合,具有大量(Volume)、高速(Velocity)、多樣(Variety)和價值(Value)密度低四大特征。大數據的這四大特征也稱作“4V”特征,如圖1-1所示。

圖1-1 大數據的“4V”特征

(一)大量

所謂大量,指的是數據具有海量規模。如圖1-2所示,日常生活中,我們所有的行為都隨時隨地在產生數據,例如掃碼消費產生的數據、瀏覽網頁和搜索信息產生的數據、在微博和朋友圈等社交平臺發表動態產生的數據,或者在醫院就診產生的數據等。全球每年大約產生5萬億GB的數據。

圖1-2 大數據的特征——“大量”

(二)高速

所謂高速,是指大數據產生和處理的速度快。例如,在淘寶或京東等購物網站上輸入要購買的商品名稱,一秒鐘之內就會返回所有符合條件的結果。大數據的處理速度隨著分布式技術的發展越來越快。

(三)多樣

所謂多樣,指的是數據種類繁多,來源廣泛。如圖1-3所示,生活中常見的圖片、視頻、聲音、文件等都是數據。概括而言,這些數據可以劃分成結構化數據、半結構化數據和非結構化數據等不同類型,后面介紹數據類型時將詳細說明。

圖1-3 大數據的特征——“多樣”

(四)價值密度低

所謂價值密度低,是指大數據雖然規模龐大,但是有價值的信息所占比例較小。大數據的重點不在于其數據量的增長,而是在信息爆炸時代對數據價值的再挖掘,如何挖掘出大數據的有效信息,才是至關重要的。例如,超市內的監控設備每時每刻都在記錄數據,但真正有價值的數據可能就幾秒鐘。

主站蜘蛛池模板: 丰宁| 双流县| 凤山县| 西林县| 青河县| 新和县| 宣恩县| 东宁县| 长治市| 通榆县| 泽库县| 江都市| 德庆县| 江川县| 安新县| 徐汇区| 康保县| 蒲江县| 黄冈市| 赤水市| 新闻| 墨玉县| 绿春县| 乳山市| 翁牛特旗| 静海县| 苗栗市| 台江县| 新化县| 灯塔市| 清徐县| 波密县| 贵州省| 海口市| 朔州市| 郧西县| 枣阳市| 岚皋县| 璧山县| 宁武县| 唐海县|