官术网_书友最值得收藏!

(二)數(shù)據(jù)要素的主要特征和分類

1.應(yīng)用場(chǎng)景成為數(shù)據(jù)要素鑒別標(biāo)準(zhǔn)

數(shù)據(jù)本質(zhì)上是信息的記錄,但數(shù)據(jù)并非都是要素。有學(xué)者提出首先需依照應(yīng)用場(chǎng)景分清四類具有不同性質(zhì)的數(shù)據(jù):第一類數(shù)據(jù)本身就是最終商品或服務(wù),比如在線讀資訊、看視頻——作為最終消費(fèi)品的數(shù)據(jù)不是生產(chǎn)要素;第二類數(shù)據(jù)是直接進(jìn)行交易的生產(chǎn)要素,比如大數(shù)據(jù)交易所里打包交易的數(shù)據(jù);第三類數(shù)據(jù)幫助提升最終產(chǎn)品或服務(wù)的性能或生產(chǎn)效率,是企業(yè)內(nèi)部生產(chǎn)要素,比如引流、效果廣告、配送優(yōu)化等,但并沒(méi)有在市場(chǎng)中直接進(jìn)行數(shù)據(jù)交易;第四類數(shù)據(jù)作為生產(chǎn)要素在兼并收購(gòu)或戰(zhàn)略合作中有價(jià)值體現(xiàn),但并非直接交易數(shù)據(jù)。《制度設(shè)計(jì)是數(shù)據(jù)要素定價(jià)的關(guān)鍵》,http://views.ce.cn/view/ent/202010/23/t20201023_35924068.shtml。

2.數(shù)據(jù)要素的三種類型

就作為生產(chǎn)要素的數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)類型豐富多樣,而這些數(shù)據(jù)可以劃分成結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)三個(gè)不同類型。本節(jié)內(nèi)容主要參見(jiàn):《結(jié)構(gòu)化數(shù)據(jù)VS半結(jié)構(gòu)化數(shù)據(jù)VS非結(jié)構(gòu)化數(shù)據(jù)》,https://blog.csdn.net/ordream/article/details/108573932。

(1)結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù),也被稱為“定量數(shù)據(jù)”,是高度組織和整齊格式化的數(shù)據(jù),是能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示的信息,如數(shù)字、符號(hào)。其一般特點(diǎn)是:數(shù)據(jù)以行為單位即一行數(shù)據(jù)表示一個(gè)實(shí)體的信息;同時(shí)每一行數(shù)據(jù)的屬性是相同的。結(jié)構(gòu)化數(shù)據(jù)是可以輕易放入表格和電子表格中的數(shù)據(jù)類型。在項(xiàng)目中,保存和管理此類數(shù)據(jù)的一般為關(guān)系數(shù)據(jù)庫(kù),當(dāng)使用結(jié)構(gòu)化查詢語(yǔ)言或SQL時(shí),計(jì)算機(jī)程序很容易搜索這些術(shù)語(yǔ)。

結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和排列是有規(guī)律的,對(duì)查詢和修改等操作很有幫助,但是在日常生活中不易找到。結(jié)構(gòu)化數(shù)據(jù)的擴(kuò)展性也不好,比如,如果字段不固定,關(guān)系型數(shù)據(jù)庫(kù)的使用也是比較困難的。

典型的結(jié)構(gòu)化數(shù)據(jù)包括:信用卡號(hào)碼、日期、財(cái)務(wù)金額、電話號(hào)碼、地址、產(chǎn)品名稱等。結(jié)合到典型場(chǎng)景中更容易理解,比如企業(yè)ERP、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫(kù)、教育一卡通、政府行政審批,以及其他核心數(shù)據(jù)庫(kù)。

(2)半結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,卻并不符合通過(guò)關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。因此,半結(jié)構(gòu)化數(shù)據(jù)也被稱為“自描述的結(jié)構(gòu)”,其應(yīng)用有日志文件、XML文檔、JSON文檔、電子郵件等,包括郵件、HTML、報(bào)表、資源庫(kù)等等,典型場(chǎng)景如郵件系統(tǒng)、Web集群、教學(xué)資源庫(kù)、數(shù)據(jù)挖掘系統(tǒng)、檔案系統(tǒng)等等。這些應(yīng)用對(duì)于數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)備份、數(shù)據(jù)共享以及數(shù)據(jù)歸檔等存在基本存儲(chǔ)需求。

半結(jié)構(gòu)化數(shù)據(jù)中,同一類實(shí)體可以有不同的屬性(即使他們被組合在一起),而這些屬性的順序并不重要,且屬性的個(gè)數(shù)不一定一樣。以樹(shù)或者圖的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)的半結(jié)構(gòu)化數(shù)據(jù)可以自由地表達(dá)很多有用的信息,包括自我描述信息(元數(shù)據(jù))。所以,半結(jié)構(gòu)化數(shù)據(jù)具備很好的擴(kuò)展性。

(3)非結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整、沒(méi)有預(yù)定義的數(shù)據(jù)模型、不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)就是“非結(jié)構(gòu)化數(shù)據(jù)”。本質(zhì)上,非結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)之外的一切數(shù)據(jù),其字段長(zhǎng)度可變,并且每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫(kù)。用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等信息),而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(如全文文本、圖像、聲音、影視、超媒體等信息)。它不符合任何預(yù)定義的模型,因此存儲(chǔ)在非關(guān)系型數(shù)據(jù)庫(kù)中。它可能是文本的或非文本的,也可能是人為的或機(jī)器生成的。簡(jiǎn)單地說(shuō),非結(jié)構(gòu)化數(shù)據(jù)就是字段可變的數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)不是那么容易組織或格式化的。收集、處理和分析非結(jié)構(gòu)化數(shù)據(jù)也是一項(xiàng)重大挑戰(zhàn)。這產(chǎn)生了一些問(wèn)題,因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)構(gòu)成了網(wǎng)絡(luò)上絕大多數(shù)可用數(shù)據(jù),并且它每年都在增長(zhǎng)。隨著更多信息在網(wǎng)絡(luò)上可用,并且大部分信息都是非結(jié)構(gòu)化的,找到使用它的方法已成為許多企業(yè)的重要戰(zhàn)略。更傳統(tǒng)的數(shù)據(jù)分析工具和方法還不足以完成這項(xiàng)工作。

典型的人為生成的非結(jié)構(gòu)化數(shù)據(jù)包括:

· 文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。

· 電子郵件:電子郵件由于包含元數(shù)據(jù)而具有一些內(nèi)部結(jié)構(gòu),我們有時(shí)將其稱為半結(jié)構(gòu)化。但是,消息字段是非結(jié)構(gòu)化的,傳統(tǒng)的分析工具無(wú)法解析它。

· 社交媒體:來(lái)自新浪微博、微信、QQ、Facebook、Twitter、LinkedIn等平臺(tái)的數(shù)據(jù)。

· 網(wǎng)站:?jiǎn)袅▎袅ā⒄掌蚕砭W(wǎng)站。

· 移動(dòng)數(shù)據(jù):短信、位置等。

· 通訊:聊天、即時(shí)消息、電話錄音、協(xié)作軟件等。

· 媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。

· 業(yè)務(wù)應(yīng)用程序:MS Office文檔、生產(chǎn)力應(yīng)用程序。

典型的機(jī)器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:

· 衛(wèi)星圖像:天氣數(shù)據(jù)、地形、軍事活動(dòng)。

· 科學(xué)數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。

· 數(shù)字監(jiān)控:監(jiān)控照片和視頻。

· 傳感器數(shù)據(jù):交通、天氣、海洋傳感器。

(4)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別

除了存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)和存儲(chǔ)在非關(guān)系數(shù)據(jù)庫(kù)之外,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間最大的區(qū)別在于便利性上的不同:針對(duì)結(jié)構(gòu)化數(shù)據(jù)存在成熟的分析工具,但用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具還處于發(fā)展的階段中。因?yàn)榕c結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)相對(duì)較多,占企業(yè)數(shù)據(jù)的80%以上,如果沒(méi)有工具來(lái)分析這些海量數(shù)據(jù),企業(yè)數(shù)據(jù)的巨大價(jià)值都將無(wú)法發(fā)揮。

隨著儲(chǔ)存成本的下降,以及新興技術(shù)的發(fā)展,行業(yè)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的重視程度得到提高。比如,物聯(lián)網(wǎng)、工業(yè)4.0、視頻直播產(chǎn)生了更多的非結(jié)構(gòu)化數(shù)據(jù);同時(shí),人工智能、機(jī)器學(xué)習(xí)、語(yǔ)義分析、圖像識(shí)別等技術(shù)方向更需要大量的非結(jié)構(gòu)化數(shù)據(jù)來(lái)開(kāi)展工作。

主站蜘蛛池模板: 高州市| 祁东县| 昌宁县| 城固县| 朔州市| 井陉县| 北票市| 宜宾市| 九龙城区| 枝江市| 崇仁县| 军事| 万源市| 上杭县| 承德县| 电白县| 博野县| 大姚县| 乌拉特前旗| 林周县| 中西区| 巴彦县| 涡阳县| 莱阳市| 东莞市| 施甸县| 边坝县| 靖远县| 汉中市| 怀仁县| 凉山| 巨鹿县| 汉沽区| 黄大仙区| 达尔| 治多县| 杭锦旗| 顺昌县| 九江市| 哈巴河县| 桃园县|