迎财神口诀

書名：大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘
作者名：李濤
本章字?jǐn)?shù)： 1155字
更新時(shí)間： 2020-01-03 19:51:08

1.2 數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史

數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中提取可用的知識(shí)，其技術(shù)的根源可以追溯幾個(gè)世紀(jì)之前應(yīng)用數(shù)學(xué)的啟蒙和發(fā)展。

大數(shù)據(jù)架構(gòu)數(shù)據(jù)挖掘發(fā)展趨勢(shì)如圖1-2所示。

圖1-2 大數(shù)據(jù)架構(gòu)數(shù)據(jù)挖掘發(fā)展趨勢(shì)

圖1-2的左邊展示的是現(xiàn)在重要的數(shù)據(jù)挖掘算法的發(fā)展過程。分類算法中樸素貝葉斯（Naive Bayes）理論在18世紀(jì)就已經(jīng)誕生。19世紀(jì)初期，高斯通過最小二乘法（Least Squared Error）估計(jì)小行星谷神星的運(yùn)行軌跡，就是一個(gè)典型的數(shù)據(jù)挖掘應(yīng)用。從時(shí)間上可以看出，早期的技術(shù)和算法萌芽主要來(lái)自于應(yīng)用數(shù)學(xué)的進(jìn)步。應(yīng)用數(shù)學(xué)的啟蒙和初期發(fā)展大多集中在17世紀(jì)到19世紀(jì)（微積分誕生于 17世紀(jì)）。應(yīng)用數(shù)學(xué)為數(shù)據(jù)分析技術(shù)提供了很好的理論鋪墊。現(xiàn)代數(shù)據(jù)技術(shù)發(fā)展更多來(lái)源于20世紀(jì)50年代后，一個(gè)主要原因是計(jì)算機(jī)科學(xué)和數(shù)字設(shè)備的廣泛應(yīng)用在20世紀(jì)50年代開始起步。當(dāng)計(jì)算機(jī)、個(gè)人電腦、數(shù)字設(shè)備（包括數(shù)字網(wǎng)絡(luò)、手機(jī)、數(shù)控機(jī)床等）逐步普及之后，“計(jì)算”和“數(shù)據(jù)”逐步變得廉價(jià)，因此 20世紀(jì)后半期是數(shù)據(jù)挖掘技術(shù)發(fā)展的一個(gè)迅猛時(shí)期。大部分前沿的算法都在這個(gè)時(shí)間段內(nèi)誕生。

圖1-2的右邊是對(duì)過去10年的數(shù)據(jù)挖掘論文研究關(guān)鍵字的可視化總結(jié)。其中，顏色越深，代表年代越近。近年來(lái)受到廣泛關(guān)注的社交網(wǎng)絡(luò)（Social Network）、推薦算法（Collaborative Filtering）、深度學(xué)習(xí)等以較大的尺寸顯示在圖1-2中并用深色顯示。

細(xì)心的讀者可以對(duì)比圖1-2的左右兩邊發(fā)現(xiàn)，21世紀(jì)以前的數(shù)據(jù)挖掘研究主要集中在數(shù)據(jù)挖掘技術(shù)、理論和廣義的挖掘任務(wù)上，例如分類、聚類或者關(guān)聯(lián)規(guī)則挖掘的算法。在進(jìn)入21世紀(jì)之后，隨著數(shù)字設(shè)備逐步深入人類的生活，數(shù)據(jù)挖掘研究更多地由實(shí)際應(yīng)用來(lái)驅(qū)動(dòng)。各類實(shí)際應(yīng)用成了數(shù)據(jù)挖掘領(lǐng)域的熱門關(guān)鍵詞。在新的應(yīng)用領(lǐng)域下，人們對(duì)傳統(tǒng)算法提出了新的需求和新的任務(wù)。因此，數(shù)據(jù)挖掘領(lǐng)域開始出現(xiàn)各種針對(duì)不同目的、不同手段，甚至不同數(shù)據(jù)結(jié)構(gòu)的新算法和新應(yīng)用。一句話概括，21 世紀(jì)以前數(shù)據(jù)挖掘關(guān)注的是技術(shù)和理論，進(jìn)入21世紀(jì)后，數(shù)據(jù)挖掘聚焦于應(yīng)用實(shí)踐與理論的結(jié)合。

值得注意的是，伴隨著數(shù)據(jù)挖掘理論結(jié)合實(shí)踐的發(fā)展，大數(shù)據(jù)躍入了人們的視野，對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)提出了挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代“數(shù)據(jù)豐富而知識(shí)匱乏”的問題，眾多的大數(shù)據(jù)處理架構(gòu)方案被提出來(lái)，用來(lái)協(xié)助將傳統(tǒng)的數(shù)據(jù)挖掘方法部署至專注于大數(shù)據(jù)分析的系統(tǒng)中。MapReduce 無(wú)疑是“個(gè)中翹楚”。而基于MapReduce 的開源實(shí)現(xiàn) Hadoop（擅長(zhǎng)批處理）成了大數(shù)據(jù)分析領(lǐng)域的王者。為了能夠充分發(fā)揮Hadoop的潛力，Hadoop 的眾多“子女”經(jīng)由開源社區(qū)涌現(xiàn)出來(lái)。典型的例子有Hive （數(shù)據(jù)倉(cāng)庫(kù)）、HBase（結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng)）、Mahout（機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘系統(tǒng)）等。在Hadoop等批處理模型大行其道的同時(shí)，人們意識(shí)到，除了海量的靜態(tài)數(shù)據(jù)以外，每分每秒都有高度動(dòng)態(tài)的實(shí)時(shí)信息涌現(xiàn)出來(lái)，對(duì)一個(gè)有效的實(shí)時(shí)數(shù)據(jù)分析模型的需求迫在眉睫。于是，處理流數(shù)據(jù)的 Storm 系統(tǒng)被Twitter 貢獻(xiàn)出來(lái)。與Hadoop不同的是，Storm 能夠不停止地處理沒有終點(diǎn)的數(shù)據(jù)流。

官术网_书友最值得收藏!

大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘

1.2 數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史