官术网_书友最值得收藏!

1.1 數據的概念

描述數據的方式之一是區分數據的類型,數據可分為以下3類。

1.1.1 結構化數據

可用二維表結構表現邏輯且易于處理的數據稱為結構化數據,從該類數據中獲取信息非常容易。例如,以由行和列組成的二維表形式存儲于關系數據庫(如SQL)中的數據屬于結構化數據;電子表格也是一個結構化數據的范例。結構化數據約占世界上全部數據量的5%~10%。SQL數據表如圖1-1所示,存有商家相關的數據。

圖1-1 SQL數據表

1.1.2 非結構化數據

非結構化數據需要更高級的工具和軟件來獲取信息。圖形圖像、PDF文件、Word文檔、視頻、音頻、郵件、PowerPoint演示文檔、網頁及其內容、維基百科、流數據和位置坐標等都屬于非結構化數據。非結構化數據約占全部數據的80%。各種非結構化數據類型如圖1-2所示。

圖1-2 非結構化數據類型

1.1.3 半結構化數據

半結構化數據是指不規整的結構化數據。JSON(JavaScript對象表示法)文件、BibTex文件、.csv文件、以制表符分隔的文本文件、XML和其他標記語言都是互聯網上半結構化數據的例子。半結構化數據約占全部數據的5%~10%。圖1-3是JSON數據的一個示例。

圖1-3 JSON數據

主站蜘蛛池模板: 长乐市| 汽车| 波密县| 梁河县| 敦化市| 黄石市| 彭阳县| 宜城市| 滦平县| 赣州市| 登封市| 乐都县| 五寨县| 迁西县| 广灵县| 运城市| 沈阳市| 鄱阳县| 南城县| 肇东市| 牙克石市| 黄浦区| 嘉义市| 宜君县| 丰原市| 应城市| 葫芦岛市| 黑山县| 西充县| 克东县| 赣榆县| 大姚县| 清新县| 巩义市| 广平县| 涟源市| 荥阳市| 开远市| 灵川县| 太白县| 利辛县|