- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘
- 李濤
- 1155字
- 2020-01-03 19:51:08
1.2 數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史
數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)中提取可用的知識(shí),其技術(shù)的根源可以追溯幾個(gè)世紀(jì)之前應(yīng)用數(shù)學(xué)的啟蒙和發(fā)展。
大數(shù)據(jù)架構(gòu)數(shù)據(jù)挖掘發(fā)展趨勢(shì)如圖1-2所示。

圖1-2 大數(shù)據(jù)架構(gòu)數(shù)據(jù)挖掘發(fā)展趨勢(shì)
圖1-2的左邊展示的是現(xiàn)在重要的數(shù)據(jù)挖掘算法的發(fā)展過程。分類算法中樸素貝葉斯(Naive Bayes)理論在18世紀(jì)就已經(jīng)誕生。19世紀(jì)初期,高斯通過最小二乘法(Least Squared Error)估計(jì)小行星谷神星的運(yùn)行軌跡,就是一個(gè)典型的數(shù)據(jù)挖掘應(yīng)用。從時(shí)間上可以看出,早期的技術(shù)和算法萌芽主要來(lái)自于應(yīng)用數(shù)學(xué)的進(jìn)步。應(yīng)用數(shù)學(xué)的啟蒙和初期發(fā)展大多集中在17世紀(jì)到19世紀(jì)(微積分誕生于 17世紀(jì))。應(yīng)用數(shù)學(xué)為數(shù)據(jù)分析技術(shù)提供了很好的理論鋪墊。現(xiàn)代數(shù)據(jù)技術(shù)發(fā)展更多來(lái)源于20世紀(jì)50年代后,一個(gè)主要原因是計(jì)算機(jī)科學(xué)和數(shù)字設(shè)備的廣泛應(yīng)用在20世紀(jì)50年代開始起步。當(dāng)計(jì)算機(jī)、個(gè)人電腦、數(shù)字設(shè)備(包括數(shù)字網(wǎng)絡(luò)、手機(jī)、數(shù)控機(jī)床等)逐步普及之后,“計(jì)算”和“數(shù)據(jù)”逐步變得廉價(jià),因此 20世紀(jì)后半期是數(shù)據(jù)挖掘技術(shù)發(fā)展的一個(gè)迅猛時(shí)期。大部分前沿的算法都在這個(gè)時(shí)間段內(nèi)誕生。
圖1-2的右邊是對(duì)過去10年的數(shù)據(jù)挖掘論文研究關(guān)鍵字的可視化總結(jié)。其中,顏色越深,代表年代越近。近年來(lái)受到廣泛關(guān)注的社交網(wǎng)絡(luò)(Social Network)、推薦算法(Collaborative Filtering)、深度學(xué)習(xí)等以較大的尺寸顯示在圖1-2中并用深色顯示。
細(xì)心的讀者可以對(duì)比圖1-2的左右兩邊發(fā)現(xiàn),21世紀(jì)以前的數(shù)據(jù)挖掘研究主要集中在數(shù)據(jù)挖掘技術(shù)、理論和廣義的挖掘任務(wù)上,例如分類、聚類或者關(guān)聯(lián)規(guī)則挖掘的算法。在進(jìn)入21世紀(jì)之后,隨著數(shù)字設(shè)備逐步深入人類的生活,數(shù)據(jù)挖掘研究更多地由實(shí)際應(yīng)用來(lái)驅(qū)動(dòng)。各類實(shí)際應(yīng)用成了數(shù)據(jù)挖掘領(lǐng)域的熱門關(guān)鍵詞。在新的應(yīng)用領(lǐng)域下,人們對(duì)傳統(tǒng)算法提出了新的需求和新的任務(wù)。因此,數(shù)據(jù)挖掘領(lǐng)域開始出現(xiàn)各種針對(duì)不同目的、不同手段,甚至不同數(shù)據(jù)結(jié)構(gòu)的新算法和新應(yīng)用。一句話概括,21 世紀(jì)以前數(shù)據(jù)挖掘關(guān)注的是技術(shù)和理論,進(jìn)入21世紀(jì)后,數(shù)據(jù)挖掘聚焦于應(yīng)用實(shí)踐與理論的結(jié)合。
值得注意的是,伴隨著數(shù)據(jù)挖掘理論結(jié)合實(shí)踐的發(fā)展,大數(shù)據(jù)躍入了人們的視野,對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)提出了挑戰(zhàn)。為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代“數(shù)據(jù)豐富而知識(shí)匱乏”的問題,眾多的大數(shù)據(jù)處理架構(gòu)方案被提出來(lái),用來(lái)協(xié)助將傳統(tǒng)的數(shù)據(jù)挖掘方法部署至專注于大數(shù)據(jù)分析的系統(tǒng)中。MapReduce 無(wú)疑是“個(gè)中翹楚”。而基于MapReduce 的開源實(shí)現(xiàn) Hadoop(擅長(zhǎng)批處理)成了大數(shù)據(jù)分析領(lǐng)域的王者。為了能夠充分發(fā)揮Hadoop的潛力,Hadoop 的眾多“子女”經(jīng)由開源社區(qū)涌現(xiàn)出來(lái)。典型的例子有Hive (數(shù)據(jù)倉(cāng)庫(kù))、HBase(結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng))、Mahout(機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘系統(tǒng))等。在Hadoop等批處理模型大行其道的同時(shí),人們意識(shí)到,除了海量的靜態(tài)數(shù)據(jù)以外,每分每秒都有高度動(dòng)態(tài)的實(shí)時(shí)信息涌現(xiàn)出來(lái),對(duì)一個(gè)有效的實(shí)時(shí)數(shù)據(jù)分析模型的需求迫在眉睫。于是,處理流數(shù)據(jù)的 Storm 系統(tǒng)被Twitter 貢獻(xiàn)出來(lái)。與Hadoop不同的是,Storm 能夠不停止地處理沒有終點(diǎn)的數(shù)據(jù)流。
- PPT,要你好看
- Splunk 7 Essentials(Third Edition)
- 大數(shù)據(jù)管理系統(tǒng)
- 輕松學(xué)C#
- R Data Mining
- Mastering VMware vSphere 6.5
- 樂高機(jī)器人EV3設(shè)計(jì)指南:創(chuàng)造者的搭建邏輯
- 計(jì)算機(jī)圖形圖像處理:Photoshop CS3
- PostgreSQL Administration Essentials
- 精通特征工程
- 網(wǎng)絡(luò)綜合布線設(shè)計(jì)與施工技術(shù)
- 精通數(shù)據(jù)科學(xué)算法
- 智能生產(chǎn)線的重構(gòu)方法
- 大數(shù)據(jù)導(dǎo)論
- Web璀璨:Silverlight應(yīng)用技術(shù)完全指南