官术网_书友最值得收藏!

1.2 數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史

數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中提取可用的知識(shí),其技術(shù)的根源可以追溯幾個(gè)世紀(jì)之前應(yīng)用數(shù)學(xué)的啟蒙和發(fā)展。

大數(shù)據(jù)架構(gòu)數(shù)據(jù)挖掘發(fā)展趨勢(shì)如圖1-2所示。

圖1-2 大數(shù)據(jù)架構(gòu)數(shù)據(jù)挖掘發(fā)展趨勢(shì)

圖1-2的左邊展示的是現(xiàn)在重要的數(shù)據(jù)挖掘算法的發(fā)展過程。分類算法中樸素貝葉斯(Naive Bayes)理論在18世紀(jì)就已經(jīng)誕生。19世紀(jì)初期,高斯通過最小二乘法(Least Squared Error)估計(jì)小行星谷神星的運(yùn)行軌跡,就是一個(gè)典型的數(shù)據(jù)挖掘應(yīng)用。從時(shí)間上可以看出,早期的技術(shù)和算法萌芽主要來(lái)自于應(yīng)用數(shù)學(xué)的進(jìn)步。應(yīng)用數(shù)學(xué)的啟蒙和初期發(fā)展大多集中在17世紀(jì)到19世紀(jì)(微積分誕生于 17世紀(jì))。應(yīng)用數(shù)學(xué)為數(shù)據(jù)分析技術(shù)提供了很好的理論鋪墊。現(xiàn)代數(shù)據(jù)技術(shù)發(fā)展更多來(lái)源于20世紀(jì)50年代后,一個(gè)主要原因是計(jì)算機(jī)科學(xué)和數(shù)字設(shè)備的廣泛應(yīng)用在20世紀(jì)50年代開始起步。當(dāng)計(jì)算機(jī)、個(gè)人電腦、數(shù)字設(shè)備(包括數(shù)字網(wǎng)絡(luò)、手機(jī)、數(shù)控機(jī)床等)逐步普及之后,“計(jì)算”和“數(shù)據(jù)”逐步變得廉價(jià),因此 20世紀(jì)后半期是數(shù)據(jù)挖掘技術(shù)發(fā)展的一個(gè)迅猛時(shí)期。大部分前沿的算法都在這個(gè)時(shí)間段內(nèi)誕生。

圖1-2的右邊是對(duì)過去10年的數(shù)據(jù)挖掘論文研究關(guān)鍵字的可視化總結(jié)。其中,顏色越深,代表年代越近。近年來(lái)受到廣泛關(guān)注的社交網(wǎng)絡(luò)(Social Network)、推薦算法(Collaborative Filtering)、深度學(xué)習(xí)等以較大的尺寸顯示在圖1-2中并用深色顯示。

細(xì)心的讀者可以對(duì)比圖1-2的左右兩邊發(fā)現(xiàn),21世紀(jì)以前的數(shù)據(jù)挖掘研究主要集中在數(shù)據(jù)挖掘技術(shù)、理論和廣義的挖掘任務(wù)上,例如分類、聚類或者關(guān)聯(lián)規(guī)則挖掘的算法。在進(jìn)入21世紀(jì)之后,隨著數(shù)字設(shè)備逐步深入人類的生活,數(shù)據(jù)挖掘研究更多地由實(shí)際應(yīng)用來(lái)驅(qū)動(dòng)。各類實(shí)際應(yīng)用成了數(shù)據(jù)挖掘領(lǐng)域的熱門關(guān)鍵詞。在新的應(yīng)用領(lǐng)域下,人們對(duì)傳統(tǒng)算法提出了新的需求和新的任務(wù)。因此,數(shù)據(jù)挖掘領(lǐng)域開始出現(xiàn)各種針對(duì)不同目的、不同手段,甚至不同數(shù)據(jù)結(jié)構(gòu)的新算法和新應(yīng)用。一句話概括,21 世紀(jì)以前數(shù)據(jù)挖掘關(guān)注的是技術(shù)和理論,進(jìn)入21世紀(jì)后,數(shù)據(jù)挖掘聚焦于應(yīng)用實(shí)踐與理論的結(jié)合。

值得注意的是,伴隨著數(shù)據(jù)挖掘理論結(jié)合實(shí)踐的發(fā)展,大數(shù)據(jù)躍入了人們的視野,對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)提出了挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代“數(shù)據(jù)豐富而知識(shí)匱乏”的問題,眾多的大數(shù)據(jù)處理架構(gòu)方案被提出來(lái),用來(lái)協(xié)助將傳統(tǒng)的數(shù)據(jù)挖掘方法部署至專注于大數(shù)據(jù)分析的系統(tǒng)中。MapReduce 無(wú)疑是“個(gè)中翹楚”。而基于MapReduce 的開源實(shí)現(xiàn) Hadoop(擅長(zhǎng)批處理)成了大數(shù)據(jù)分析領(lǐng)域的王者。為了能夠充分發(fā)揮Hadoop的潛力,Hadoop 的眾多“子女”經(jīng)由開源社區(qū)涌現(xiàn)出來(lái)。典型的例子有Hive (數(shù)據(jù)倉(cāng)庫(kù))、HBase(結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng))、Mahout(機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘系統(tǒng))等。在Hadoop等批處理模型大行其道的同時(shí),人們意識(shí)到,除了海量的靜態(tài)數(shù)據(jù)以外,每分每秒都有高度動(dòng)態(tài)的實(shí)時(shí)信息涌現(xiàn)出來(lái),對(duì)一個(gè)有效的實(shí)時(shí)數(shù)據(jù)分析模型的需求迫在眉睫。于是,處理流數(shù)據(jù)的 Storm 系統(tǒng)被Twitter 貢獻(xiàn)出來(lái)。與Hadoop不同的是,Storm 能夠不停止地處理沒有終點(diǎn)的數(shù)據(jù)流。

主站蜘蛛池模板: 宿松县| 阳原县| 项城市| 重庆市| 宣城市| 宝鸡市| 芜湖县| 扶绥县| 弥勒县| 平陆县| 中江县| 德格县| 仁布县| 武隆县| 涪陵区| 平顺县| 墨江| 顺义区| 宣威市| 吉林省| 福安市| 堆龙德庆县| 凤庆县| 汕头市| 迁西县| 龙州县| 东至县| 华容县| 兰州市| 浦东新区| 永福县| 虞城县| 讷河市| 稷山县| 丹东市| 丰县| 连山| 广西| 毕节市| 安乡县| 木里|