- Jupyter數據科學實戰
- (印)普拉泰克·古普塔
- 430字
- 2020-11-21 11:56:29
1.1 數據的概念
描述數據的方式之一是區分數據的類型,數據可分為以下3類。
1.1.1 結構化數據
可用二維表結構表現邏輯且易于處理的數據稱為結構化數據,從該類數據中獲取信息非常容易。例如,以由行和列組成的二維表形式存儲于關系數據庫(如SQL)中的數據屬于結構化數據;電子表格也是一個結構化數據的范例。結構化數據約占世界上全部數據量的5%~10%。SQL數據表如圖1-1所示,存有商家相關的數據。

圖1-1 SQL數據表
1.1.2 非結構化數據
非結構化數據需要更高級的工具和軟件來獲取信息。圖形圖像、PDF文件、Word文檔、視頻、音頻、郵件、PowerPoint演示文檔、網頁及其內容、維基百科、流數據和位置坐標等都屬于非結構化數據。非結構化數據約占全部數據的80%。各種非結構化數據類型如圖1-2所示。

圖1-2 非結構化數據類型
1.1.3 半結構化數據
半結構化數據是指不規整的結構化數據。JSON(JavaScript對象表示法)文件、BibTex文件、.csv文件、以制表符分隔的文本文件、XML和其他標記語言都是互聯網上半結構化數據的例子。半結構化數據約占全部數據的5%~10%。圖1-3是JSON數據的一個示例。

圖1-3 JSON數據
推薦閱讀
- Visual Basic 6.0程序設計計算機組裝與維修
- Java EE框架整合開發入門到實戰:Spring+Spring MVC+MyBatis(微課版)
- 控糖控脂健康餐
- 動手玩轉Scratch3.0編程:人工智能科創教育指南
- Python從菜鳥到高手(第2版)
- Web Development with Django Cookbook
- Python應用輕松入門
- RabbitMQ Cookbook
- Java EE核心技術與應用
- Python Interviews
- 從0到1:HTML5 Canvas動畫開發
- RocketMQ實戰與原理解析
- PHP+MySQL動態網站開發從入門到精通(視頻教學版)
- Qt 4開發實踐
- Getting Started with Electronic Projects