1.1.5 大數據的結構類型
大數據具有多種形式,從高度結構化的財務數據,到文本文件、多媒體文件和基因定位圖的任何數據,都可稱為大數據。由于數據自身的復雜性,作為一個必然的結果,處理大數據的首選方法就是在并行計算的環境中進行大規模并行處理(Massively Parallel Processing,MPP),這使得同時發生的并行攝取、并行數據裝載和分析成為可能。實際上,大多數的大數據都是非結構化或半結構化的,這需要不同的技術和工具來處理和分析。
大數據最突出的特征是它的結構。圖1-5顯示了幾種不同數據結構類型數據的增長趨勢,由圖可知,未來數據增長的80%~90%將來自于不是結構化的數據類型(半、準和非結構化)。

圖1-5 數據增長日益趨向非結構化
雖然圖1-5顯示了4種不同的、相分離的數據類型,實際上,有時這些數據類型是可以被混合在一起的。例如,有一個傳統的關系數據庫管理系統保存著一個軟件支持呼叫中心的通話日志,這里有典型的結構化數據,如日期/時間戳、機器類型、問題類型、操作系統,這些都是在線支持人員通過圖形用戶界面上的下拉式菜單輸入的。另外,還有非結構化數據或半結構化數據,如自由形式的通話日志信息,這些可能來自包含問題的電子郵件,或者技術問題和解決方案的實際通話描述。另外一種可能是與結構化數據有關的實際通話的語音日志或者音頻文字實錄。即使是現在,大多數分析人員還無法分析這種通話日志歷史數據庫中最普通和高度結構化的數據,因為挖掘文本信息是一項強度很大的工作,并且無法簡單地實現自動化。
人們通常最熟悉結構化數據的分析,然而,半結構化數據(XML)、“準”結構化數據(網站地址字符串)和非結構化數據代表了不同的挑戰,需要不同的技術來分析。
如今,人們不再認為數據是靜止和陳舊的。但在以前,一旦完成了搜集數據的目的之后,數據就會被認為已經沒有用處了。比如說,在飛機降落之后,票價數據就沒有用了。又如,某城市的公交車因為價格不依賴于起點和終點,所以能夠反映重要通勤信息的數據就可能被丟棄——設計人員如果沒有大數據的理念,就會丟失掉很多有價值的數據。
今天,大數據是人們獲得新的認知、創造新的價值的源泉,大數據還是改變市場、組織機構,以及政府與公民關系的方法。大數據時代對人們的生活,以及與世界交流的方式都提出了挑戰。實際上,大數據的精髓在于人們分析信息時的3個轉變,這些轉變將改變人們理解和組建社會的方法,且是相互聯系和相互作用的。