- 高維聚類知識(shí)發(fā)現(xiàn)關(guān)鍵技術(shù)研究及應(yīng)用
- 陳建斌著
- 11字
- 2018-12-27 17:34:49
1.2 數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)——KDD
1.2.1 KDD的產(chǎn)生與發(fā)展
自20世紀(jì)60年代末期以來,隨著計(jì)算機(jī)應(yīng)用的普及和數(shù)據(jù)處理在計(jì)算機(jī)應(yīng)用中所占比重的上升,數(shù)據(jù)庫技術(shù)得到了迅速發(fā)展。數(shù)據(jù)庫技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)通信已經(jīng)成為當(dāng)前計(jì)算機(jī)應(yīng)用中兩個(gè)最重要的基礎(chǔ)領(lǐng)域。計(jì)算機(jī)的一些重要應(yīng)用,如管理信息系統(tǒng)、辦公自動(dòng)化技術(shù)、計(jì)算機(jī)輔助設(shè)計(jì)和專家系統(tǒng)等,都離不開這兩個(gè)基本技術(shù)。
數(shù)據(jù)庫技術(shù)是在傳統(tǒng)文件技術(shù)的基礎(chǔ)上發(fā)展起來的。數(shù)據(jù)庫技術(shù)區(qū)別于傳統(tǒng)文件技術(shù)的特點(diǎn)有:數(shù)據(jù)共享性、數(shù)據(jù)獨(dú)立性、數(shù)據(jù)操作和控制手段的一致性等。在當(dāng)前流行的數(shù)據(jù)庫管理系統(tǒng)中,采用的數(shù)據(jù)模型主要有層次模型、網(wǎng)狀模型和關(guān)系模型三種。20 世紀(jì) 70 年代中期,關(guān)系數(shù)據(jù)模型漸漸成為占主導(dǎo)地位的數(shù)據(jù)模型。由于關(guān)系數(shù)據(jù)庫的模型結(jié)構(gòu)簡單,邏輯物理界面清晰,具有較強(qiáng)的集合處理功能,使得數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)的效率大大提高。
目前,數(shù)據(jù)庫的應(yīng)用己經(jīng)觸及到人類生活的各個(gè)方面,銀行、交通、法律、商業(yè)、工業(yè)、農(nóng)業(yè)、教育、科技、軍事和醫(yī)療衛(wèi)生等各行各業(yè)都在應(yīng)用著數(shù)據(jù)庫。據(jù)統(tǒng)計(jì),1989 年全世界數(shù)據(jù)庫總量為 500 萬個(gè),而且以每 20 個(gè)月翻一番的速度增長,但是對數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)應(yīng)用還主要是檢索查詢,效率很低,很多數(shù)據(jù)往往還沒來得及分析就己經(jīng)過時(shí)了。20 世紀(jì) 90 年代,地球探測衛(wèi)星每天產(chǎn)生的數(shù)據(jù),超過以前所有航測數(shù)據(jù)的總和,即使一個(gè)人以最快的速度一刻不停地工作,也要花費(fèi)幾年時(shí)間才能瀏覽完衛(wèi)星一天內(nèi)產(chǎn)生的圖片;生物學(xué)領(lǐng)域研究的數(shù)以百萬計(jì)的遺傳基因,世界各國定期進(jìn)行的人口普查,國土資源地理信息,鐵路動(dòng)態(tài)調(diào)度控制和公安司法部門的案件處理等都涉及巨量的數(shù)據(jù),相當(dāng)數(shù)量的數(shù)據(jù)具有很強(qiáng)的時(shí)效性,數(shù)據(jù)的價(jià)值隨著時(shí)間的推移而迅速降低。
數(shù)據(jù)收集與維護(hù)的最終目的是供人們使用。簡單的數(shù)據(jù)查詢或統(tǒng)計(jì)雖然可以滿足某些低層次的需求,但人們更為需要的是從大量數(shù)據(jù)資源中挖掘出對各類決策有指導(dǎo)意義的一般知識(shí)。它們是對大量數(shù)據(jù)的高度濃縮和抽象,是對數(shù)據(jù)整體的全面而深刻的反映,這些經(jīng)過智能分析和表示的數(shù)據(jù)才是有價(jià)值和競爭力的社會(huì)資源。
KDD(Knowledge Discovery in Databases)技術(shù)就是在這樣一個(gè)時(shí)代背景下產(chǎn)生的。它的宗旨是在數(shù)據(jù)庫中分析處理大量的數(shù)據(jù),發(fā)現(xiàn)有用的知識(shí),為用戶提供所需問題的答案。數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)比較公認(rèn)的定義是:從數(shù)據(jù)集中識(shí)別出可信的、有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。“數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)”一詞第一次出現(xiàn)是 1989 年 8 月在美國底特律召開的第 11 屆國際人工智能聯(lián)合會(huì)議的專題研討會(huì)上。1991 年、1993 年和 1994 年又分別舉行過數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)專題研討會(huì)。由于參加會(huì)議的人數(shù)逐年增多,從 1995 年開始,每年都要舉辦一屆數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)國際會(huì)議。
- Practical Ansible 2
- Canvas LMS Course Design
- AutoCAD快速入門與工程制圖
- Ansible Quick Start Guide
- 空間機(jī)器人遙操作系統(tǒng)及控制
- Dreamweaver CS3網(wǎng)頁制作融會(huì)貫通
- MicroPython Projects
- Security Automation with Ansible 2
- 統(tǒng)計(jì)策略搜索強(qiáng)化學(xué)習(xí)方法及應(yīng)用
- 數(shù)據(jù)挖掘方法及天體光譜挖掘技術(shù)
- AI 3.0
- 奇點(diǎn)將至
- 手把手教你學(xué)Flash CS3
- 簡明學(xué)中文版Flash動(dòng)畫制作
- ARM嵌入式開發(fā)實(shí)例