- 大數據技術與應用基礎
- 陳志德 曾燕清 李翔宇
- 651字
- 2020-11-21 11:51:46
1.2 大數據的概念及特征
1.2.1 大數據的概念
關于大數據,難以有一個非常定量的定義。
麥肯錫對大數據的定義是:大數據指的是那些大小超過標準數據庫工具軟件能夠收集、存儲、管理和分析的數據集。
維基百科給出的大數據概念是:在信息技術中,“大數據”是指一些使用目前現有數據庫管理工具或者傳統數據處理應用很難處理的大型而復雜的數據集。其挑戰包括采集、管理、存儲、搜索、共享、分析和可視化。
“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,“大數據”指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據。Gartner在闡述大數據概念時,提出如上論述。
復旦大學朱揚勇教授提出,大數據本質上是數據交叉、方法交叉、知識交叉、領域交叉、學科交叉,從而產生新的科學研究方法、新的管理決策方法、新的經濟增長方式、新的社會發展方式等。
1.2.2 大數據的特征
大數據具備以下四個維度的特征(如圖1-1所示):

圖1-1 大數據的特征
(1)大體量(Volume)。數據量可從數百TB到數百PB甚至EB的規模。
(2)多樣化(Variety)。大數據所處理的數據類型早已不是單一的文本數據或者結構化的數據庫中的表,而是包括各種格式和形態的數據,數據結構類型復雜。
(3)時效性(Velocity)。很多大數據需要在一定時間限度下得到及時處理,處理數據的效率決定企業的生命。
(4)大價值(Value)。大數據包含很多深度的價值,通過強大的機器學習和高級分析對數據進行“提純”,能夠帶來巨大商業價值。