官术网_书友最值得收藏!

1.1.2 大數據的基本內涵

隨著大數據的發展和廣泛應用,數據的產生方式和數據變量發生了巨大的變化。大數據作為一種抽象化名詞來指代海量的數據。簡而言之,大數據是既龐大又復雜的數據集合,是傳統方法無法獲取、存儲、處理、分析的數據。基于此,一項突破傳統數據分析方法的技術出現了,那就是大數據技術。

麥肯錫對大數據做出了如下定義:大數據是指那些大小比常規數據庫工具的獲取、存儲量等更大的數據集。大數據與小數據的思維差異如圖1-1所示。

img

圖1-1 大數據與小數據的思維差異

大數據的內涵通常用“4V”特征來表述。

第一個V是Volume,就是數據體量大,大到運用常用的數據庫軟件無法對其進行管理。現在來看,基本上是幾十TB到幾個PB數量級。當然,隨著技術的進步,數據不斷積累,這個數值會變得更大,有人預測5年后也許只有EB數量級的數據量才稱得上大數據。

第二個V是Variety,是指數據類型繁多,來源各異。有來自網絡的網頁、日志、圖片,有來自傳感器的監測數據、視頻數據、音頻數據、位置信息,還有來自日常運營系統的各類信息等。

第三個V是Velocity,速度快。它包含兩個含義。一是數據產生和更新的頻率快,數據量增長速度快。如今,只需要兩天就能產生自人類文明誕生以來到2003年所產生數據的總量。谷歌搜索引擎每個月處理的數據量超過400PB;百度每天大約要處理幾十PB數據;淘寶上有10億多件商品,每天發生數千萬筆交易,產生約20TB數據。各個城市的視頻監控每時每刻都在采集巨量的流媒體數據。二是響應快,要有很高的時效性。大數據的處理要遵循1秒定律,就是在1秒內出結果。

第四個V是Value,價值性。一是價值密度低,在數據總量中有用數據所占比例低。以視頻數據為例,在連續不間斷的監控圖像中,可能有用的數據僅有一兩秒。二是整體價值高,設想一下,研究問題領域相關的、全部的、真實的數據被匯集起來形成的大數據集,其價值是何等珍貴。三是潛在價值大。大數據應用就是在特定場景下利用大數據分析技術挖掘大數據中存在的潛在價值,大量數據的價值尚未被挖掘利用,大數據挖掘就像“沙里淘金”。

主站蜘蛛池模板: 繁昌县| 东乡族自治县| 平阴县| 靖江市| 德令哈市| 南澳县| 北川| 莱芜市| 新源县| 乌兰浩特市| 永州市| 凤凰县| 遂平县| 德钦县| 商洛市| SHOW| 嘉善县| 滨州市| 团风县| 周至县| 那曲县| 泊头市| 丰台区| 临潭县| 同德县| 三门峡市| 龙海市| 博爱县| 郴州市| 瓦房店市| 通州区| 禹城市| 泊头市| 建德市| 萨嘎县| 磐安县| 延津县| 乌拉特后旗| 沧源| 桂林市| 泰安市|