1.1.2 數據類型
根據是否具有固定的結構和關系,可以將大數據分為以下3類。
● 結構化數據:可預先定義屬性并且格式固定的數據。就結構化數據而言,通常是先有結構,再有數據。典型的結構化數據是通過關系型數據庫進行存儲和管理的。這類數據通常采用二維表結構的形式進行邏輯表達,以行為單位,一行數據表示一個實體的信息,每一行數據的屬性都相同,嚴格遵循數據的格式與長度規范。
● 非結構化數據:沒有固定結構的,不能通過結構化模式表示和存儲的數據。典型的非結構化數據包括文本、圖像、音頻、視頻等。
● 半結構化數據:介于結構化數據和非結構化數據之間的數據。就半結構化數據而言,通常是先有數據,再有結構。半結構化數據的結構不固定,同一類數據具有不同的屬性,屬性的數量也不固定,不像結構化數據那樣會對數據的結構進行預先模式化定義。由于半結構化數據的結構和內容是混在一起的,沒有明顯的區分,因此也稱這類結構為自描述結構。典型的半結構化數據包括XML(Extensible Markup Language,可擴展標記語言)、JSON(JavaScript Object Notation,JavaScript對象表示法)、HTML(HyperText Markup Language,超文本標記語言)等。
研究表明,全球新增數據的80%是半結構化數據和非結構化數據。非結構化數據的增速遠高于結構化數據的,而且非結構化數據的占比也越來越高。
隨著信息技術的快速發展,多源異構數據(多源異構數據指的是在不同設備、不同操作系統的不同數據庫系統中的數據)的融合成為常態。為滿足面向多種不同類型數據存儲的需求,關系型存儲、文件存儲、對象存儲、寬表存儲、鍵值存儲、時序存儲、事件存儲、時空存儲、圖存儲、向量存儲等多種數據存儲模型應運而生。這些數據模型共同構成了多模型大數據架構。
早期的多模型大數據架構的主流產品只是將多個單模型數據庫通過統一的界面組合在一起。本質上,這種多模型大數據架構是單模型大數據架構的延伸,在形式上將數據孤島問題隱藏在統一的用戶界面背后。但是,這種組合了多種單模型數據庫的產品會導致數據冗余、數據一致性治理難、數據跨庫分析難、資源配置難等一系列問題。
為解決這些問題,原生多模型大數據架構應運而生。該架構能夠在單一場景下基于各類數據庫分別支撐,在各種數據庫之上搭建統一的資源調度(通過容器化編排來統一調度計算、存儲、網絡等基礎資源)、統一的分布式存儲管理(為不同的存儲模型提供公共的存儲管理服務,保障數據一致性,實現數據統一管理運維和高可用,避免數據孤島)、統一的計算引擎(根據不同的存儲模型自動匹配算法,不僅支持批處理、流處理等計算任務,而且支持不同模型數據的流轉與關聯)與統一的接口層(在一個命令中可完成各種復合跨模型數據查詢,無須訪問不同接口即可操作不同的數據模型),最終實現數據一致性、靈活的資源彈性、簡捷的操作與運維。
- 數據存儲架構與技術
- 漫話大數據
- SQL Server 2012數據庫技術與應用(微課版)
- 企業大數據系統構建實戰:技術、架構、實施與應用
- 數據革命:大數據價值實現方法、技術與案例
- Flutter Projects
- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- 視覺大數據智能分析算法實戰
- Spring MVC Beginner’s Guide
- Mastering ROS for Robotics Programming(Second Edition)
- 數據挖掘競賽實戰:方法與案例
- Node.js High Performance
- AndEngine for Android Game Development Cookbook
- Rust High Performance
- 數據之美:一本書學會可視化設計