- 大數(shù)據(jù)導(dǎo)論(第2版)
- 楊尊琦主編
- 1690字
- 2023-06-28 15:35:35
1.2.2 大數(shù)據(jù)的來源及定義
一般數(shù)據(jù)是基于信息技術(shù)發(fā)展的早期信息系統(tǒng)里數(shù)據(jù)庫中的數(shù)據(jù),或管理本地的數(shù)據(jù),或駕馭遠(yuǎn)程的數(shù)據(jù)庫中的數(shù)據(jù)。近幾年,管理模式不斷創(chuàng)新,社會網(wǎng)絡(luò)的出現(xiàn)、跨界數(shù)據(jù)管理、物聯(lián)網(wǎng)增長都在催生大數(shù)據(jù)的出現(xiàn)。一般數(shù)據(jù)和大數(shù)據(jù)有本質(zhì)的區(qū)別,在介紹什么是大數(shù)據(jù)之前,先認(rèn)識大數(shù)據(jù)是如何產(chǎn)生的。
1.大數(shù)據(jù)來源
1)物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板計算機、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
知識拓展
RFID介紹
2)大數(shù)據(jù)包括網(wǎng)絡(luò)日志、RFID、傳感器網(wǎng)絡(luò)、社會網(wǎng)絡(luò)、社會數(shù)據(jù)、互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué)、大氣科學(xué)、基因組學(xué)、生物地球化學(xué)、生物,以及其他復(fù)雜或跨學(xué)科的科研、軍事偵察、醫(yī)療記錄;攝影檔案館視頻檔案;大規(guī)模的電子商務(wù)記錄。
圖1-8所示為物聯(lián)網(wǎng)、云計算、傳統(tǒng)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的關(guān)系,展示出大數(shù)據(jù)在物聯(lián)網(wǎng)智能設(shè)備上產(chǎn)生的數(shù)據(jù)存儲在云端形成大數(shù)據(jù)的情況。
大數(shù)據(jù)如此龐大而復(fù)雜,它們需要專門設(shè)計的硬件和軟件工具進行處理。該數(shù)據(jù)集通常是萬億或EB的大小。這些數(shù)據(jù)具有各種各樣的來源:傳感器、氣候信息及公開的信息,如雜志、報紙和文章。大數(shù)據(jù)產(chǎn)生的其他例子包括購買交易記錄、網(wǎng)絡(luò)日志、病歷、軍事監(jiān)控、視頻和圖像檔案,以及大型電子商務(wù)記錄。

圖1-8 物聯(lián)網(wǎng)、云計算、傳統(tǒng)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的關(guān)系
2.大數(shù)據(jù)定義
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》一書中,大數(shù)據(jù)分析是指不用隨機分析法(抽樣調(diào)查)這樣的經(jīng)典方法,而是對數(shù)據(jù)集進行分析處理。廣義上的數(shù)據(jù)和大數(shù)據(jù)包括信息。
大數(shù)據(jù)(Big Data),或稱巨量資料,是指所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)擷取、管理、處理并整理為能夠幫助企業(yè)經(jīng)營決策的資訊。或定義為無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
Lisa Arthur在《大數(shù)據(jù)營銷》一書中將大數(shù)據(jù)定義成紛繁雜亂的、互動的應(yīng)用程序和流程。她把大數(shù)據(jù)比喻為數(shù)據(jù)“毛球”,如圖1-9所示。在一些企業(yè)中,混亂的數(shù)據(jù)中包含的信息,可能分布于市場營銷部門、財務(wù)部門、銷售部門和客戶服務(wù)部門。而在另外一些公司,這些混亂的數(shù)據(jù)可能來自市場營銷服務(wù)提供商、獨立的電子商務(wù)網(wǎng)站、未歸檔的呼叫中心的對話錄音,以及公司或合作伙伴的部門和部分網(wǎng)頁的活動數(shù)據(jù)日志。

圖1-9 數(shù)據(jù)“毛球”
麥肯錫全球研究所給出的大數(shù)據(jù)定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
IBM公司賦予大數(shù)據(jù)“領(lǐng)悟數(shù)據(jù),提升見識,洞察秋毫,驅(qū)動優(yōu)化”4個內(nèi)涵,側(cè)重于大數(shù)據(jù)技術(shù)的應(yīng)用,強調(diào)大數(shù)據(jù)間相關(guān)性的發(fā)現(xiàn),其核心能力是“大數(shù)據(jù)中的價值發(fā)現(xiàn)和應(yīng)用”。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術(shù)。隨著互聯(lián)網(wǎng)及其應(yīng)用的發(fā)展,不斷形成的大數(shù)據(jù)是一類由互聯(lián)網(wǎng)衍生而來的重要的人造資源。從管理角度,大數(shù)據(jù)是一類反映物質(zhì)世界和精神世界運動狀態(tài)和狀態(tài)變化的資源,它具有決策有用性、功能多樣性、應(yīng)用協(xié)同性、可重復(fù)開采和安全風(fēng)險性。
隨著云時代的來臨,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce框架一樣向數(shù)十臺、數(shù)百臺甚至數(shù)千臺的計算機分配工作。每天數(shù)以億計的數(shù)據(jù)產(chǎn)生著,云計算、云存儲的應(yīng)用有效地將這種隱態(tài)資源轉(zhuǎn)化為可用資源,這種資源無疑會成為國家、組織和個人的最重要的財富。
- 朱紹侯《中國古代史(下冊)》(第5版)配套題庫【名??佳姓骖}+章節(jié)題庫+模擬試題】
- 2020年考研英語(二)英漢翻譯高分特訓(xùn)100篇【命題分析+答題攻略+強化訓(xùn)練】
- 數(shù)字邏輯課程設(shè)計實訓(xùn)教程
- 細(xì)說Linux系統(tǒng)管理
- 企業(yè)公共關(guān)系案例解析
- 企業(yè)財務(wù)學(xué)
- 設(shè)計美學(xué)
- 公共藝術(shù)設(shè)計
- 高級女裝制板技術(shù) 基礎(chǔ)篇
- 新編美國文學(xué)史及選讀
- 數(shù)據(jù)庫原理及應(yīng)用(MySQL版·在線實訓(xùn)版)
- 新編會計學(xué)
- 北京大學(xué)法學(xué)院642憲法與行政法歷年考研真題及詳解
- 李昌麒《經(jīng)濟法學(xué)》(政法大學(xué)出版社第4版)筆記和課后習(xí)題(含考研真題)詳解
- 2020年新疆維吾爾自治區(qū)軍轉(zhuǎn)干部安置考試《申論》題庫【真題精選+章節(jié)題庫+模擬試題】