1.2 大數據的結構類型
大數據具有多種形式,從高度結構化的財務數據,到文本文件、多媒體文件和基因定位圖的任何數據,都可以稱為大數據。數據量大是大數據的一致特征。由于數據自身的復雜性,作為一個必然的結果,處理大數據的首選方法就是在并行計算的環境中進行大規模并行處理(Massively Parallel Processing,MPP),這使得同時發生的并行攝取、并行數據裝載和分析成為可能。實際上,大多數的大數據都是非結構化或半結構化的,這需要不同的技術和工具來處理和分析。
大數據最突出的特征是它的結構。圖1-5顯示了幾種數據結構類型數據的增長趨勢,由圖1-5可知,未來數據增長的80%~90%將來自不是結構化的數據類型(半結構化、“準”結構化和非結構化)。
圖1-5 數據增長日益趨向非結構化
雖然圖1-5顯示了4種不同的、相分離的數據類型,實際上,有時這些數據類型是可以被混合在一起的。例如,有一個傳統的關系數據庫管理系統保存著一個軟件支持呼叫中心的通話日志,這里有典型的結構化數據,比如日期/時間戳、機器類型、問題類型和操作系統,這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結構化數據或半結構化數據,比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術問題和解決方案的實際通話描述。另外一種可能是與結構化數據有關的實際通話的語音日志或者音頻文字實錄。即便是現在,大多數分析人員還無法分析這種通話日志歷史數據庫中的最普通和高度結構化的數據,因為挖掘文本信息是一項強度很大的工作,并且無法簡單地實現自動化。
人們通常最熟悉結構化數據的分析,然而,半結構化數據(XML)、“準”結構化數據(網站地址字符串)和非結構化數據代表了不同的挑戰,需要不同的技術來分析。
推薦閱讀
- 電氣自動化專業英語(第3版)
- 大數據項目管理:從規劃到實現
- IoT Penetration Testing Cookbook
- 3D Printing for Architects with MakerBot
- 基于單片機的嵌入式工程開發詳解
- Spatial Analytics with ArcGIS
- 基于Proteus的單片機應用技術
- 基于RPA技術財務機器人的應用與研究
- 機床電氣控制與PLC
- Machine Learning with Spark(Second Edition)
- Deep Learning Essentials
- Learning iOS 8 for Enterprise
- 傳感器原理及應用(第二版)
- Arduino創意機器人入門:基于Mixly
- Proteus從入門到精通100例