官术网_书友最值得收藏!

1.2 數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)——KDD

1.2.1 KDD的產(chǎn)生與發(fā)展

自20世紀(jì)60年代末期以來,隨著計(jì)算機(jī)應(yīng)用的普及和數(shù)據(jù)處理在計(jì)算機(jī)應(yīng)用中所占比重的上升,數(shù)據(jù)庫技術(shù)得到了迅速發(fā)展。數(shù)據(jù)庫技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)通信已經(jīng)成為當(dāng)前計(jì)算機(jī)應(yīng)用中兩個(gè)最重要的基礎(chǔ)領(lǐng)域。計(jì)算機(jī)的一些重要應(yīng)用,如管理信息系統(tǒng)、辦公自動(dòng)化技術(shù)、計(jì)算機(jī)輔助設(shè)計(jì)和專家系統(tǒng)等,都離不開這兩個(gè)基本技術(shù)。

數(shù)據(jù)庫技術(shù)是在傳統(tǒng)文件技術(shù)的基礎(chǔ)上發(fā)展起來的。數(shù)據(jù)庫技術(shù)區(qū)別于傳統(tǒng)文件技術(shù)的特點(diǎn)有:數(shù)據(jù)共享性、數(shù)據(jù)獨(dú)立性、數(shù)據(jù)操作和控制手段的一致性等。在當(dāng)前流行的數(shù)據(jù)庫管理系統(tǒng)中,采用的數(shù)據(jù)模型主要有層次模型、網(wǎng)狀模型和關(guān)系模型三種。20 世紀(jì) 70 年代中期,關(guān)系數(shù)據(jù)模型漸漸成為占主導(dǎo)地位的數(shù)據(jù)模型。由于關(guān)系數(shù)據(jù)庫的模型結(jié)構(gòu)簡單,邏輯物理界面清晰,具有較強(qiáng)的集合處理功能,使得數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)的效率大大提高。

目前,數(shù)據(jù)庫的應(yīng)用己經(jīng)觸及到人類生活的各個(gè)方面,銀行、交通、法律、商業(yè)、工業(yè)、農(nóng)業(yè)、教育、科技、軍事和醫(yī)療衛(wèi)生等各行各業(yè)都在應(yīng)用著數(shù)據(jù)庫。據(jù)統(tǒng)計(jì),1989 年全世界數(shù)據(jù)庫總量為 500 萬個(gè),而且以每 20 個(gè)月翻一番的速度增長,但是對數(shù)據(jù)庫中數(shù)據(jù)的開發(fā)應(yīng)用還主要是檢索查詢,效率很低,很多數(shù)據(jù)往往還沒來得及分析就己經(jīng)過時(shí)了。20 世紀(jì) 90 年代,地球探測衛(wèi)星每天產(chǎn)生的數(shù)據(jù),超過以前所有航測數(shù)據(jù)的總和,即使一個(gè)人以最快的速度一刻不停地工作,也要花費(fèi)幾年時(shí)間才能瀏覽完衛(wèi)星一天內(nèi)產(chǎn)生的圖片;生物學(xué)領(lǐng)域研究的數(shù)以百萬計(jì)的遺傳基因,世界各國定期進(jìn)行的人口普查,國土資源地理信息,鐵路動(dòng)態(tài)調(diào)度控制和公安司法部門的案件處理等都涉及巨量的數(shù)據(jù),相當(dāng)數(shù)量的數(shù)據(jù)具有很強(qiáng)的時(shí)效性,數(shù)據(jù)的價(jià)值隨著時(shí)間的推移而迅速降低。

數(shù)據(jù)收集與維護(hù)的最終目的是供人們使用。簡單的數(shù)據(jù)查詢或統(tǒng)計(jì)雖然可以滿足某些低層次的需求,但人們更為需要的是從大量數(shù)據(jù)資源中挖掘出對各類決策有指導(dǎo)意義的一般知識(shí)。它們是對大量數(shù)據(jù)的高度濃縮和抽象,是對數(shù)據(jù)整體的全面而深刻的反映,這些經(jīng)過智能分析和表示的數(shù)據(jù)才是有價(jià)值和競爭力的社會(huì)資源。

KDD(Knowledge Discovery in Databases)技術(shù)就是在這樣一個(gè)時(shí)代背景下產(chǎn)生的。它的宗旨是在數(shù)據(jù)庫中分析處理大量的數(shù)據(jù),發(fā)現(xiàn)有用的知識(shí),為用戶提供所需問題的答案。數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)比較公認(rèn)的定義是:從數(shù)據(jù)集中識(shí)別出可信的、有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。“數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)”一詞第一次出現(xiàn)是 1989 年 8 月在美國底特律召開的第 11 屆國際人工智能聯(lián)合會(huì)議的專題研討會(huì)上。1991 年、1993 年和 1994 年又分別舉行過數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)專題研討會(huì)。由于參加會(huì)議的人數(shù)逐年增多,從 1995 年開始,每年都要舉辦一屆數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)國際會(huì)議。

主站蜘蛛池模板: 绥宁县| 吴堡县| 乐亭县| 公安县| 体育| 永昌县| 吉林省| 义马市| 钟祥市| 芮城县| 塘沽区| 天台县| 普兰县| 镇雄县| 项城市| 新化县| 云南省| 武功县| 阿荣旗| 浦江县| 阿合奇县| 霞浦县| 安福县| 萝北县| 望奎县| 康定县| 新民市| 融水| 上思县| 九台市| 毕节市| 青神县| 德昌县| 旺苍县| 米林县| 惠安县| 绥德县| 高清| 布尔津县| 晋城| 灵武市|