官术网_书友最值得收藏!

非結構化數據

【導讀】非結構化數據就是除結構化數據之外的一切數據。

相對于結構化數據而言,非結構化數據(unstructured data)的數據結構不規則或不完整,它不符合任何預定義的模型。簡單地說,非結構化數據就是字段可變的數據。

非結構化數據

非結構化數據無法使用數據庫的二維邏輯表來表現,也沒有像結構化數據那樣統一的查詢語言。事實上,每一種存儲非結構化數據的系統都有自己特有的查詢語言。非結構化數據可以是人為生成的也可以是機器生成的,可以是文本的也可以是非文本的。

典型的人為生成的非結構化數據一般來自如下渠道。

■ 文本文件:文字處理文件、電子表格文件、演示文稿、日志等。

■ 社交媒體:來自新浪微博、微信、QQ、臉書、推特、領英等平臺的數據。

■ 網站:YouTube、Instagram、照片共享網站等平臺的數據。

■ 移動數據:短信、位置等。

■ 通訊:聊天、即時消息、電話錄音、協作軟件等。

■ 多媒體:MP3、數碼照片、音頻文件、視頻文件等。

■ 業務應用程序:MS Office文檔等生產力應用程序。

典型的機器生成的非結構化數據一般來自如下渠道。

■ 衛星圖像:天氣、地形、軍事活動等數據。

■ 科學數據:石油和天然氣勘探數據、空間勘探數據、地震圖像數據、大氣數據等。

■ 數字監控:監控照片和視頻等。

■ 傳感器數據:交通、天氣、海洋傳感器等。

世界上大多數的數據都是以非結構化數據的形式存在的,如何收集、處理和分析這些非結構化數據是一項重大挑戰。例如,在很多知識庫系統中,為了查詢大量積累下來的文檔,需要從PDF、Word、Rtf、Excel和PowerPoint等格式的文檔中提取描述文檔的文字信息,這些描述性的信息包括文檔標題、作者、主要內容等,這就是非結構化數據的采集過程。

目前,對結構化數據的處理存在成熟的分析工具,但用于挖掘非結構化數據的分析工具仍處于萌芽和發展階段。結構化數據和非結構化數據的區別,除了應分別存儲在關系型數據庫和非關系型數據庫中之外,還在于分析的便利性不同。

半結構化數據

在結構化數據和非結構化數據之間,還存在一種半結構化數據類型,其處理的便利性介于結構化數據與非結構化數據之間。

半結構化數據,雖不完全符合關系型數據庫的模型結構,但包含相關標記,可以用來分隔語義元素以及對記錄和字段進行分層。半結構化數據常見的類型有日志文件、XML文檔、JSON文檔、電子郵件(Email)等。比如,Email由于其元數據具有一些穩定的內部結構,存在一定程度的結構化,但是其消息字段是非結構化的,傳統的分析工具無法解析它。因此,我們可將其稱為半結構化數據。

一起來看下為什么電子郵件屬于半結構化數據。

圣誕節快到了,小美媽媽決定給認識的小伙伴們都發一封祝福的電子郵件。每封電子郵件都必須填寫郵箱名稱、收件人、發件人等信息,這些信息都有固定的格式。例如,收發郵箱名稱中都必須有@符,這些就是結構化的信息。然而,針對每位朋友,小美媽媽想送去的圣誕祝福是不一樣的,需要用不一樣的文字語言進行表達,這些文字就寫在郵件的正文部分。這些洋洋灑灑的文字相較于前面的內容,形式是比較自由的,屬于非結構化數據。

事實上,數據是結構化的還是非結構化的,并沒有非常嚴格而明確的界限,取決于使用者要怎么去分析和使用這個數據。以電子郵件來看,如果使用者并不關心郵件的正文內容,即把正文都看成是文本,那么整個郵件都可以認為是結構化的。但如果是想從郵件正文中挖掘出某些有用的信息,正文文本就是非結構化的。

【擴展概念】

非關系型數據庫:它的出現是為了彌補關系型數據庫因為事務等機制帶來的對海量數據、高并發請求的處理在性能上的欠缺。具有如下優點。

■ 易擴展。雖然非關系型數據庫種類繁多,但由于去掉了關系型數據庫的關系特性,數據之間無關系,這樣就非常容易擴展,無形之間也在架構層面帶來了可擴展的能力。

■ 大數據量與高性能。非關系型數據庫都具有非常高的讀寫性能,在大數據量下也表現優秀,這同樣得益于它的無關系性,數據庫結構簡單。

主站蜘蛛池模板: 林西县| 泾阳县| 平山县| 望城县| 内乡县| 怀仁县| 丽江市| 温州市| 秦皇岛市| 紫金县| 元氏县| 新巴尔虎左旗| 高雄县| 射洪县| 沁水县| 宣威市| 阳春市| 合作市| 甘南县| 枞阳县| 蕲春县| 四会市| 浪卡子县| 宜昌市| 仁化县| 永川市| 江达县| 鹤庆县| 微博| 宝应县| 绍兴市| 儋州市| 龙川县| 大邑县| 东源县| 嘉兴市| 桓仁| 乐业县| 台州市| 定日县| 嵩明县|