- 大數據可視化編程和應用
- 倪振松 胡煜華 朱家全主編
- 1053字
- 2024-12-31 20:43:58
1.1 大數據概述
大數據(Big Data)是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
在維克托·邁爾·舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》一書中,對于大數據,并不是使用隨機分析法(抽樣調查)這種捷徑對抽樣數據進行分析處理,而是對所有數據進行分析處理。
大數據的5V特點(IBM提出)如下:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
對于大數據,研究機構Gartner給出了如下定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。麥肯錫全球研究所給出的定義如下:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
1.大數據產生的原因
大多數的技術突破來源于實際的產品需要。大數據最初誕生于谷歌的搜索引擎中,隨著Web 2.0時代的發展,互聯網上的數據量呈現爆炸式的增長,為了滿足信息搜索的需要,對大規模數據的存儲提出了非常高的要求。
當數據量、數據的復雜程度、數據處理的任務要求等超出了傳統數據存儲與計算能力時,稱之為“大數據(現象)”。可見,計算機科學與技術是從存儲和計算能力視角來理解大數據的——大數據不僅僅是數據存量的問題,還與數據增量、復雜度和處理要求(如實時分析)有關。
大量信息帶來的問題如下:
· 信息過量,難以消化。
· 信息真假難以辨識。
· 信息安全難以保證。
· 信息形式不一致,難以統一處理。
· 缺乏挖掘數據背后隱藏的知識的手段,導致“數據爆炸但知識貧乏”現象。
2.基本單位
在計算機存儲中,最小的基本單位是bit,最大的是單位是DB;按從小到大的順序給出所有單位如下:bit、B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的10次方)來計算,如圖1-1所示。

圖1-1 計算機存儲單位
3.大數據技術
從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。分布式架構的特色在于對海量數據進行分布式數據挖掘,但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
- Learning Cython Programming
- C語言程序設計基礎與實驗指導
- 數據結構(Java語言描述)
- Java EE 7 Development with NetBeans 8
- 鋒利的SQL(第2版)
- Java編程技術與項目實戰(第2版)
- Scala程序員面試算法寶典
- Learning Apache Karaf
- IoT Projects with Bluetooth Low Energy
- C語言程序設計
- 邊玩邊學Scratch3.0少兒趣味編程
- Android技術內幕(系統卷)
- Game Programming using Qt 5 Beginner's Guide
- CISSP in 21 Days(Second Edition)
- Building Microservices with .NET Core 2.0(Second Edition)