官术网_书友最值得收藏!

1.1 大數據概述

大數據(Big Data)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

在維克托·邁爾·舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》一書中,對于大數據,并不是使用隨機分析法(抽樣調查)這種捷徑對抽樣數據進行分析處理,而是對所有數據進行分析處理。

大數據的5V特點(IBM提出)如下:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

對于大數據,研究機構Gartner給出了如下定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。麥肯錫全球研究所給出的定義如下:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。

1.大數據產生的原因

大多數的技術突破來源于實際的產品需要。大數據最初誕生于谷歌的搜索引擎中,隨著Web 2.0時代的發展,互聯網上的數據量呈現爆炸式的增長,為了滿足信息搜索的需要,對大規模數據的存儲提出了非常高的要求。

當數據量、數據的復雜程度、數據處理的任務要求等超出了傳統數據存儲與計算能力時,稱之為“大數據(現象)”。可見,計算機科學與技術是從存儲和計算能力視角來理解大數據的——大數據不僅僅是數據存量的問題,還與數據增量、復雜度和處理要求(如實時分析)有關。

大量信息帶來的問題如下:

· 信息過量,難以消化。

· 信息真假難以辨識。

· 信息安全難以保證。

· 信息形式不一致,難以統一處理。

· 缺乏挖掘數據背后隱藏的知識的手段,導致“數據爆炸但知識貧乏”現象。

2.基本單位

在計算機存儲中,最小的基本單位是bit,最大的是單位是DB;按從小到大的順序給出所有單位如下:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的10次方)來計算,如圖1-1所示。

圖1-1 計算機存儲單位

3.大數據技術

從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。分布式架構的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。

主站蜘蛛池模板: 瑞金市| 衡山县| 宝清县| 安岳县| 兰考县| 石门县| 大埔区| 雷州市| 桐梓县| 辽宁省| 永昌县| 宜昌市| 大足县| 英吉沙县| 抚顺县| 仙游县| 辛集市| 瑞昌市| 齐齐哈尔市| 澄江县| 金阳县| 墨脱县| 朔州市| 临西县| 兰西县| 乌拉特前旗| 丰县| 根河市| 兴文县| 德令哈市| 新巴尔虎右旗| 且末县| 江城| 涿鹿县| 溧阳市| 惠来县| 郑州市| 南皮县| 盐津县| 板桥市| 含山县|