- 變革:元宇宙與數(shù)字經(jīng)濟(jì)
- 朱嘉明等
- 2096字
- 2024-06-04 15:59:29
(二)數(shù)據(jù)要素的主要特征和分類
1.應(yīng)用場(chǎng)景成為數(shù)據(jù)要素鑒別標(biāo)準(zhǔn)
數(shù)據(jù)本質(zhì)上是信息的記錄,但數(shù)據(jù)并非都是要素。有學(xué)者提出首先需依照應(yīng)用場(chǎng)景分清四類具有不同性質(zhì)的數(shù)據(jù):第一類數(shù)據(jù)本身就是最終商品或服務(wù),比如在線讀資訊、看視頻——作為最終消費(fèi)品的數(shù)據(jù)不是生產(chǎn)要素;第二類數(shù)據(jù)是直接進(jìn)行交易的生產(chǎn)要素,比如大數(shù)據(jù)交易所里打包交易的數(shù)據(jù);第三類數(shù)據(jù)幫助提升最終產(chǎn)品或服務(wù)的性能或生產(chǎn)效率,是企業(yè)內(nèi)部生產(chǎn)要素,比如引流、效果廣告、配送優(yōu)化等,但并沒(méi)有在市場(chǎng)中直接進(jìn)行數(shù)據(jù)交易;第四類數(shù)據(jù)作為生產(chǎn)要素在兼并收購(gòu)或戰(zhàn)略合作中有價(jià)值體現(xiàn),但并非直接交易數(shù)據(jù)。
2.數(shù)據(jù)要素的三種類型
就作為生產(chǎn)要素的數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)類型豐富多樣,而這些數(shù)據(jù)可以劃分成結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)三個(gè)不同類型。
(1)結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù),也被稱為“定量數(shù)據(jù)”,是高度組織和整齊格式化的數(shù)據(jù),是能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示的信息,如數(shù)字、符號(hào)。其一般特點(diǎn)是:數(shù)據(jù)以行為單位即一行數(shù)據(jù)表示一個(gè)實(shí)體的信息;同時(shí)每一行數(shù)據(jù)的屬性是相同的。結(jié)構(gòu)化數(shù)據(jù)是可以輕易放入表格和電子表格中的數(shù)據(jù)類型。在項(xiàng)目中,保存和管理此類數(shù)據(jù)的一般為關(guān)系數(shù)據(jù)庫(kù),當(dāng)使用結(jié)構(gòu)化查詢語(yǔ)言或SQL時(shí),計(jì)算機(jī)程序很容易搜索這些術(shù)語(yǔ)。
結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和排列是有規(guī)律的,對(duì)查詢和修改等操作很有幫助,但是在日常生活中不易找到。結(jié)構(gòu)化數(shù)據(jù)的擴(kuò)展性也不好,比如,如果字段不固定,關(guān)系型數(shù)據(jù)庫(kù)的使用也是比較困難的。
典型的結(jié)構(gòu)化數(shù)據(jù)包括:信用卡號(hào)碼、日期、財(cái)務(wù)金額、電話號(hào)碼、地址、產(chǎn)品名稱等。結(jié)合到典型場(chǎng)景中更容易理解,比如企業(yè)ERP、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫(kù)、教育一卡通、政府行政審批,以及其他核心數(shù)據(jù)庫(kù)。
(2)半結(jié)構(gòu)化數(shù)據(jù)
半結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的一種形式,卻并不符合通過(guò)關(guān)系型數(shù)據(jù)庫(kù)或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來(lái)的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層。因此,半結(jié)構(gòu)化數(shù)據(jù)也被稱為“自描述的結(jié)構(gòu)”,其應(yīng)用有日志文件、XML文檔、JSON文檔、電子郵件等,包括郵件、HTML、報(bào)表、資源庫(kù)等等,典型場(chǎng)景如郵件系統(tǒng)、Web集群、教學(xué)資源庫(kù)、數(shù)據(jù)挖掘系統(tǒng)、檔案系統(tǒng)等等。這些應(yīng)用對(duì)于數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)備份、數(shù)據(jù)共享以及數(shù)據(jù)歸檔等存在基本存儲(chǔ)需求。
半結(jié)構(gòu)化數(shù)據(jù)中,同一類實(shí)體可以有不同的屬性(即使他們被組合在一起),而這些屬性的順序并不重要,且屬性的個(gè)數(shù)不一定一樣。以樹(shù)或者圖的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)的半結(jié)構(gòu)化數(shù)據(jù)可以自由地表達(dá)很多有用的信息,包括自我描述信息(元數(shù)據(jù))。所以,半結(jié)構(gòu)化數(shù)據(jù)具備很好的擴(kuò)展性。
(3)非結(jié)構(gòu)化數(shù)據(jù)
數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整、沒(méi)有預(yù)定義的數(shù)據(jù)模型、不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)就是“非結(jié)構(gòu)化數(shù)據(jù)”。本質(zhì)上,非結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)之外的一切數(shù)據(jù),其字段長(zhǎng)度可變,并且每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫(kù)。用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等信息),而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(如全文文本、圖像、聲音、影視、超媒體等信息)。它不符合任何預(yù)定義的模型,因此存儲(chǔ)在非關(guān)系型數(shù)據(jù)庫(kù)中。它可能是文本的或非文本的,也可能是人為的或機(jī)器生成的。簡(jiǎn)單地說(shuō),非結(jié)構(gòu)化數(shù)據(jù)就是字段可變的數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù)不是那么容易組織或格式化的。收集、處理和分析非結(jié)構(gòu)化數(shù)據(jù)也是一項(xiàng)重大挑戰(zhàn)。這產(chǎn)生了一些問(wèn)題,因?yàn)榉墙Y(jié)構(gòu)化數(shù)據(jù)構(gòu)成了網(wǎng)絡(luò)上絕大多數(shù)可用數(shù)據(jù),并且它每年都在增長(zhǎng)。隨著更多信息在網(wǎng)絡(luò)上可用,并且大部分信息都是非結(jié)構(gòu)化的,找到使用它的方法已成為許多企業(yè)的重要戰(zhàn)略。更傳統(tǒng)的數(shù)據(jù)分析工具和方法還不足以完成這項(xiàng)工作。
典型的人為生成的非結(jié)構(gòu)化數(shù)據(jù)包括:
· 文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。
· 電子郵件:電子郵件由于包含元數(shù)據(jù)而具有一些內(nèi)部結(jié)構(gòu),我們有時(shí)將其稱為半結(jié)構(gòu)化。但是,消息字段是非結(jié)構(gòu)化的,傳統(tǒng)的分析工具無(wú)法解析它。
· 社交媒體:來(lái)自新浪微博、微信、QQ、Facebook、Twitter、LinkedIn等平臺(tái)的數(shù)據(jù)。
· 網(wǎng)站:?jiǎn)袅▎袅ā⒄掌蚕砭W(wǎng)站。
· 移動(dòng)數(shù)據(jù):短信、位置等。
· 通訊:聊天、即時(shí)消息、電話錄音、協(xié)作軟件等。
· 媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。
· 業(yè)務(wù)應(yīng)用程序:MS Office文檔、生產(chǎn)力應(yīng)用程序。
典型的機(jī)器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:
· 衛(wèi)星圖像:天氣數(shù)據(jù)、地形、軍事活動(dòng)。
· 科學(xué)數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。
· 數(shù)字監(jiān)控:監(jiān)控照片和視頻。
· 傳感器數(shù)據(jù):交通、天氣、海洋傳感器。
(4)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別
除了存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)和存儲(chǔ)在非關(guān)系數(shù)據(jù)庫(kù)之外,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間最大的區(qū)別在于便利性上的不同:針對(duì)結(jié)構(gòu)化數(shù)據(jù)存在成熟的分析工具,但用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具還處于發(fā)展的階段中。因?yàn)榕c結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)相對(duì)較多,占企業(yè)數(shù)據(jù)的80%以上,如果沒(méi)有工具來(lái)分析這些海量數(shù)據(jù),企業(yè)數(shù)據(jù)的巨大價(jià)值都將無(wú)法發(fā)揮。
隨著儲(chǔ)存成本的下降,以及新興技術(shù)的發(fā)展,行業(yè)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的重視程度得到提高。比如,物聯(lián)網(wǎng)、工業(yè)4.0、視頻直播產(chǎn)生了更多的非結(jié)構(gòu)化數(shù)據(jù);同時(shí),人工智能、機(jī)器學(xué)習(xí)、語(yǔ)義分析、圖像識(shí)別等技術(shù)方向更需要大量的非結(jié)構(gòu)化數(shù)據(jù)來(lái)開(kāi)展工作。
- 網(wǎng)商群體持續(xù)高質(zhì)量成長(zhǎng)機(jī)制:以中國(guó)淘寶村為例
- 啤酒經(jīng)濟(jì)學(xué)
- 經(jīng)營(yíng)方略(升級(jí)版)
- 現(xiàn)代旅游電子商務(wù)
- 西部地區(qū)服務(wù)業(yè)集聚與城鎮(zhèn)化互動(dòng)發(fā)展研究
- 中國(guó)煤層氣產(chǎn)業(yè)發(fā)展研究
- 農(nóng)產(chǎn)品支持價(jià)格研究
- 吉林省城鎮(zhèn)化建設(shè)融資模式與融資效率研究
- 中國(guó)煙草史
- 《跨太平洋伙伴關(guān)系協(xié)定》全譯本導(dǎo)讀(上、下冊(cè))
- 國(guó)際貿(mào)易單證實(shí)務(wù)
- 水環(huán)境保護(hù)中的NGO:理論與案例
- 5G時(shí)代:經(jīng)濟(jì)增長(zhǎng)新引擎
- 陜西省吳堡縣辛莊村調(diào)研報(bào)告
- 中國(guó)智慧互聯(lián)投資發(fā)展報(bào)告(2017)