官术网_书友最值得收藏!

1.1 什么是大數(shù)據(jù)

有觀點(diǎn)認(rèn)為,人類過(guò)去經(jīng)歷了三次工業(yè)化技術(shù)革命,從蒸汽機(jī)時(shí)代,到電力時(shí)代,再到早期的計(jì)算機(jī)時(shí)代,每一次革命都釋放了巨大的生產(chǎn)力,開(kāi)創(chuàng)了工業(yè)的轉(zhuǎn)型和經(jīng)濟(jì)的增長(zhǎng)時(shí)期。人們都說(shuō),現(xiàn)在人類正在經(jīng)歷第四次技術(shù)革命,數(shù)據(jù)就是新的源動(dòng)力。

的確,我們已經(jīng)看到了海量數(shù)據(jù)的爆炸式增長(zhǎng)景觀,特別是來(lái)自云端的數(shù)據(jù)。云端提供了前所未有的計(jì)算能力和數(shù)據(jù)存儲(chǔ)能力。這表明,我們已身處“大數(shù)據(jù)”時(shí)代。

但是,關(guān)于大數(shù)據(jù)的確切定義,目前尚未獲得統(tǒng)一、公認(rèn)的說(shuō)法。

IBM用3V(Volume、Variety、Velocity)來(lái)描述大數(shù)據(jù)所擁有的特點(diǎn)。

大容量(Volume),是指數(shù)據(jù)體量巨大。

多形式(Variety),是從數(shù)據(jù)的類型角度來(lái)看的,數(shù)據(jù)的存在形式從過(guò)去的以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)換為形式多種多樣,既包含傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也包含可便于搜索的半結(jié)構(gòu)化數(shù)據(jù),如文本數(shù)據(jù),還包含更多的非結(jié)構(gòu)化數(shù)據(jù),如圖片、音頻和視頻數(shù)據(jù)。

高速率(Velocity)則是從數(shù)據(jù)產(chǎn)生效率的實(shí)時(shí)性角度來(lái)衡量的,數(shù)據(jù)以非常高的速率產(chǎn)生,比如大量傳感器生成的實(shí)時(shí)數(shù)據(jù)。

之后,IBM又在3V的基礎(chǔ)上,增加了Value這個(gè)維度,即價(jià)值密度低的數(shù)據(jù)稱為大數(shù)據(jù),意指大數(shù)據(jù)伴隨著從低價(jià)值的原始數(shù)據(jù)中進(jìn)行深度挖掘和計(jì)算,從海量且形式各異的數(shù)據(jù)源中抽取出富含價(jià)值的信息。

由此可以看出,從具備4V特性的大量數(shù)據(jù)中挖掘高價(jià)值知識(shí),是各界對(duì)于大數(shù)據(jù)的一個(gè)共識(shí)。

由于數(shù)據(jù)量的爆炸式增長(zhǎng),傳統(tǒng)的數(shù)據(jù)管理模式及工具已不能高效地存儲(chǔ)和處理如此規(guī)模的數(shù)據(jù)。新時(shí)代呼喚新思維、新技術(shù)。從維克多·邁爾·舍恩伯格所著的《大數(shù)據(jù)時(shí)代》中,可以看到大數(shù)據(jù)時(shí)代的思維變革。

(1)不是隨機(jī)樣本,而是全體數(shù)據(jù)。

統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、現(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。

(2)不是精確性,而是混雜性。

數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還要重要。社會(huì)從“大數(shù)據(jù)”中所能得到的益處,并非來(lái)自運(yùn)行更快的芯片或更好的算法,而是來(lái)自更多的數(shù)據(jù)。大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無(wú)法實(shí)現(xiàn)精確性。那些精確的系統(tǒng)試圖讓我們接受一個(gè)貧乏而規(guī)整的慘象——假裝世間萬(wàn)物都是整齊地排列的。而事實(shí)上,現(xiàn)實(shí)是紛繁復(fù)雜的,天地間存在的事物也遠(yuǎn)遠(yuǎn)多于系統(tǒng)所設(shè)想的。要想獲得大規(guī)模數(shù)據(jù)帶來(lái)的好處,混亂應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。

(3)不是因果關(guān)系,而是相關(guān)關(guān)系。

在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。通過(guò)給我們找到一個(gè)現(xiàn)象的良好關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái)。

在小數(shù)據(jù)世界中,相關(guān)關(guān)系也是有用的,但在大數(shù)據(jù)的背景下,相關(guān)關(guān)系大放異彩。通過(guò)應(yīng)用相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物。

大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快,而且不易受偏見(jiàn)的影響。建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。

主站蜘蛛池模板: 师宗县| 富阳市| 仁怀市| 嘉禾县| 新宾| 常山县| 长寿区| 宜兰市| 建瓯市| 汕尾市| 新源县| 特克斯县| 景泰县| 宁化县| 通山县| 广南县| 凌云县| 新田县| 民权县| 永春县| 屯门区| 进贤县| 塔城市| 潼南县| 惠安县| 贵德县| 宁明县| 晴隆县| 乐清市| 陆良县| 甘南县| 丘北县| 东城区| 吉安市| 清原| 涞水县| 肥城市| 蒲江县| 平山县| 南昌市| 新邵县|