- Hadoop大數(shù)據(jù)分析技術(shù)
- 遲殿委 陳鵬程主編
- 645字
- 2023-07-17 19:53:49
1.1 大數(shù)據(jù)定義
大數(shù)據(jù)(Big data)又稱為巨量資料、巨量數(shù)據(jù)或海量數(shù)據(jù)。一般來說,大數(shù)據(jù)的特性可概括為4V,即Volume、Variety、Velocity、Value。
1.Volume(大量數(shù)據(jù))
· 累積龐大的數(shù)據(jù):因特網(wǎng)、企業(yè)IT、物聯(lián)網(wǎng)、社區(qū)、短信、電話、網(wǎng)絡搜索、在線交易等,隨時都在快速累積龐大的數(shù)據(jù)。
· 數(shù)據(jù)量等級:數(shù)據(jù)量很容易達到TB(Terabyte,1024GB),甚至PB(Petabyte,1024TB)或EB(Exabyte,1024PB)的等級。
2.Variety(多樣性)
大數(shù)據(jù)的數(shù)據(jù)類型非常多樣化,可分為非結(jié)構(gòu)化信息和結(jié)構(gòu)化信息。
· 非結(jié)構(gòu)化信息:文字、圖片、圖像、視頻、音樂、地理位置信息、個人化信息——如社區(qū)、交友數(shù)據(jù)等。
· 結(jié)構(gòu)化信息:數(shù)據(jù)庫、數(shù)據(jù)倉庫等。
3.Velocity(時效性)
· 數(shù)據(jù)的傳輸流動:隨著帶寬越來越大、設備越來越多,每秒產(chǎn)生的數(shù)據(jù)流越來越大。
· 必須能實時處理大量的信息:時間太久就會失去數(shù)據(jù)的價值,所以數(shù)據(jù)必須能在最短時間內(nèi)分析出結(jié)果。
4.Value(價值密度低)
大數(shù)據(jù)價值密度相對較低。如隨著物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,存在大量不相關(guān)信息。因此需要對未來趨勢與模式作預測分析,利用機器學習、人工智能等進行深度復雜分析。而如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值提煉,是大數(shù)據(jù)時代急需解決的難題。雖然單位數(shù)據(jù)的價值密度在不斷降低,但是數(shù)據(jù)的整體價值在提高。
大數(shù)據(jù)的影響已經(jīng)深入到各個領(lǐng)域和行業(yè),在商業(yè)、經(jīng)濟及其他領(lǐng)域中,將大量數(shù)據(jù)進行分析后就可得出許多數(shù)據(jù)的關(guān)聯(lián)性,可用于預測商業(yè)趨勢、營銷研究、金融財務、疾病研究、打擊犯罪等。決策行為將基于數(shù)據(jù)和分析的結(jié)果,而不是依靠經(jīng)驗和直覺。
- Advanced Machine Learning with Python
- ClickHouse性能之巔:從架構(gòu)設計解讀性能之謎
- 深度實踐OpenStack:基于Python的OpenStack組件開發(fā)
- Java虛擬機字節(jié)碼:從入門到實戰(zhàn)
- Java EE 8 Application Development
- Active Directory with PowerShell
- Java Fundamentals
- 軟件測試教程
- 玩轉(zhuǎn).NET Micro Framework移植:基于STM32F10x處理器
- Python 3 Object:oriented Programming(Second Edition)
- Scratch 3.0少兒積木式編程(6~10歲)
- 算法(第4版)
- The C++ Workshop
- 構(gòu)建跨平臺APP:響應式UI設計入門
- Professional Azure SQL Database Administration