官术网_书友最值得收藏!

結構化數據

【導讀】世間萬物,皆可變為數據。其中,那些具有一定格式、滿足一定條件,看起來整齊、有規律的數據就是結構化數據。

數據(data)就是一組表示客觀事實的可鑒別的符號,它可以是數字、字符、聲音、圖形、圖像和視頻等。

在自動控制、計算機和通信技術領域,數據被引申為數字化的信息,主要是指用二進制數字0和1所表示的信息,通俗地說,就是可以在計算機中通過一定的算法或模型進行處理的信息。

什么是結構化數據

結構化數據(structured data),是具有一定格式、滿足一定條件的數據。這里的格式與條件,通常指的是數據的一系列屬性或者特征,也被稱為定量數據,是能夠用數據或統一的結構加以表示的信息。結構化數據在二維關系上,也稱作行數據,一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。典型的結構化數據包括信用卡號碼、日期、財務金額、電話號碼、地址、產品名稱等。

結構化數據的一列通常稱為一個字段,即一種變量,在數據庫中每個字段都包含某一專題的信息。例如,在員工信息數據庫中,"姓名""性別"這些列都是表中所有行共有的屬性,所以把這些列稱為"姓名"字段和"性別"字段。

結構化數據是可以分割的,它們既可以單獨使用,也可以在適當情況下作為一個獨立的單元使用。

例如,小美上的幼兒園有5個班級,每個班級都有自己的學生花名冊,每本花名冊都是相同的格式,五本花名冊可以用同樣的格式組合成一本全幼兒園的學生花名冊。這些花名冊都是結構化數據,它們既可以分班級使用,也可以合并起來作為校園花名冊整體使用。

結構化數據的存儲

結構化數據可以存儲在關系數據庫中。每當我們使用臺式電腦、筆記本電腦或智能手機的時候,都是在訪問存儲在數據庫中的數據。

為了管理這些結構化數據,需要使用關系數據庫管理系統來創建、維護、訪問和控制數據,并使用結構化查詢語言對其進行檢索。

結構化查詢語言(structured query language,SQL)極大地方便了對關系型數據庫信息的查詢。在結構化查詢語言發明之前,用戶要想查詢信息,首先需要了解各個數據庫的組建規則,進而根據組建規則制定出信息的查詢規則,才能搜索出想要的信息。有了結構化查詢語言之后,用戶無須了解數據庫的組建規則,也不需要自己去設置查詢規則,結構化查詢語言會自動在后臺實現這一過程。

舉個例子,如果用戶想求解一個多邊形的面積,在有結構化查詢語言之前,首先需要知道怎么拆分多邊形,比如分成多個三角形、四方形等,然后把這些小圖形的面積加起來算出多邊形的面積,或者用復雜的微積分等其他方法來解決問題。這要求用戶首先得知道用什么方法去計算面積,但是有了結構化查詢語言之后,用戶只需要知道目標是想要多邊形的面積,不需要知道是用拆分圖形法還是微積分法算出來的這一過程,而可以直接運用該語言查詢出結果。

隨著數據庫容量的逐漸增大,它就會變得緩慢且不可靠。當數據的規模增大到單一節點的數據庫無法支撐時(如達到TB、PB及以上級別),關系數據庫管理系統就不能再有效工作,即使對于結構化數據來說也是如此。這時候,就需要用到分布式存儲技術。

分布式存儲技術并不是將數據存儲在某個或多個特定的節點上,而是通過網絡使用企業中各機器上的磁盤空間,并將這些分散的存儲資源構成一個虛擬的存儲設備,將數據分散地存儲在各個角落。分布式存儲又可以用垂直擴展與水平擴展兩種方式來進行。

垂直擴展比較好理解,簡單來說就是按照列切分數據庫,將不同功能的數據存儲在不同的數據庫中,這樣一個大數據庫就被切分成多個小數據庫,從而達到了數據庫的擴展。

什么是水平擴展呢?可以將數據庫的水平拓展理解為按照數據行來切分,就是將表中的某些行切分到一個數據庫中,而另外的某些行又切分到其他數據庫中。為了能夠比較容易地判斷各行數據被切分到了哪個數據庫中,切分需要按照某種特定的規則來進行,如按照某個數字字段的范圍、某個時間類型字段的范圍進行切分。

一起來看下小美幼兒園儲存食物的例子,來理解下這幾個概念。

氣象臺發布了臺風預警,小美所在幼兒園的廚房為了保障食材供給,需要臨時儲備大量的食材(可看成做菜的"數據")。平時,食材(數據)都是集中存放在幼兒園中央廚房的大冰箱(數據庫)里,現在大冰箱空間不夠用了,園長決定把各班級的儲藏室都用來存放食材,這樣就分散了大冰箱的存儲壓力。在存放之前,園長讓采購老師把所有采買的食材都登記在一張電子表格清單(結構化數據)上。

如果按照早餐、午餐、晚餐(不同功能和價值)需要用到的不同食材來進行分開存儲,例如早餐的食材存放在班級A的儲藏室,午餐的食材存放在班級B的儲藏室,這樣就類似于垂直擴展;如果不論食材做什么用,在清單上都以采購時間先后的順序,分別進行存儲,如周一采購的食材存放在班級A,周二采購的食材存在班級B,這樣就類似于水平擴展。

不論是垂直擴展,還是水平擴展,目的都是通過分布式技術加快對結構化數據的處理效率。

【擴展概念】

關系型數據庫:是依據關系模型創建的數據庫。所謂關系模型,就是一對一、一對多、多對多等二維表格模型,因而一個關系型數據庫就是由一個二維表及其之間的聯系組成的數據組織。關系型數據庫可以很好地存儲一些關系模型的數據,比如不同科目老師對應多個學生的數據(多對多),一本書對應多個作者的數據(一對多),一本書對應一個出版日期的數據(一對一)。

主站蜘蛛池模板: 兴和县| 突泉县| 崇义县| 社会| 东兰县| 习水县| 和顺县| 永春县| 西昌市| 陵川县| 集安市| 龙南县| 桂东县| 四会市| 连山| 长海县| 肥西县| 长岛县| 明光市| 嫩江县| 西峡县| 屯门区| 县级市| 翼城县| 东港市| 搜索| 庄浪县| 永善县| 弥渡县| 武穴市| 阜新市| 嘉鱼县| 囊谦县| 枝江市| 仙游县| 宜宾市| 长武县| 衡山县| 文成县| 仁寿县| 高碑店市|