書名: 大數據時代管理信息系統作者名: 周蘇 王碩蘋本章字數: 700字更新時間: 2019-10-24 10:29:50
1.3 大數據的結構類型
大數據具有多種形式,從高度結構化的財務數據,到文本文件、多媒體文件和基因定位圖的任何數據,都可以稱為大數據。數據量大是大數據的一致特征。由于數據自身的復雜性,作為一個必然的結果,處理大數據的首選方法就是在并行計算的環境中進行大規模并行處理(Massively Parallel Processing,MPP),這使得同時發生的并行攝取、并行數據裝載和分析成為可能。實際上,大多數的大數據都是非結構化或半結構化的,這需要不同的技術和工具來處理和分析。
大數據最突出的特征是它的結構。圖1-11所示為幾種不同數據結構類型數據的增長趨勢,由圖可知,未來數據增長的80%~90%將來自于不是結構化的數據類型(半結構化、準結構化和非結構化)。
雖然圖1-11顯示了4種不同的、相分離的數據類型,實際上,有時這些數據類型是可以被混合在一起的。例如,有一個傳統的關系數據庫管理系統保存著一個軟件支持呼叫中心的通話日志,這里有典型的結構化數據,比如日期/時間戳、機器類型、問題類型、操作系統,這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結構化數據或半結構化數據,比如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術問題和解決方案的實際通話描述。另外一種可能是與結構化數據有關的實際通話的語音日志或者音頻文字實錄。即使是現在,大多數分析人員還無法分析這種通話日志歷史數據庫中最普通和高度結構化的數據,因為挖掘文本信息是一項強度很大的工作,并且無法簡單地實現自動化。

圖1-11 數據增長日益趨向非結構化
人們通常最熟悉結構化數據的分析,然而,半結構化數據(XML)、準結構化數據(網站地址字符串)和非結構化數據代表了不同的挑戰,需要不同的技術來分析。