官术网_书友最值得收藏!

1.2 數據庫知識發現——KDD

1.2.1 KDD的產生與發展

自20世紀60年代末期以來,隨著計算機應用的普及和數據處理在計算機應用中所占比重的上升,數據庫技術得到了迅速發展。數據庫技術與計算機網絡通信已經成為當前計算機應用中兩個最重要的基礎領域。計算機的一些重要應用,如管理信息系統、辦公自動化技術、計算機輔助設計和專家系統等,都離不開這兩個基本技術。

數據庫技術是在傳統文件技術的基礎上發展起來的。數據庫技術區別于傳統文件技術的特點有:數據共享性、數據獨立性、數據操作和控制手段的一致性等。在當前流行的數據庫管理系統中,采用的數據模型主要有層次模型、網狀模型和關系模型三種。20 世紀 70 年代中期,關系數據模型漸漸成為占主導地位的數據模型。由于關系數據庫的模型結構簡單,邏輯物理界面清晰,具有較強的集合處理功能,使得數據庫應用系統開發的效率大大提高。

目前,數據庫的應用己經觸及到人類生活的各個方面,銀行、交通、法律、商業、工業、農業、教育、科技、軍事和醫療衛生等各行各業都在應用著數據庫。據統計,1989 年全世界數據庫總量為 500 萬個,而且以每 20 個月翻一番的速度增長,但是對數據庫中數據的開發應用還主要是檢索查詢,效率很低,很多數據往往還沒來得及分析就己經過時了。20 世紀 90 年代,地球探測衛星每天產生的數據,超過以前所有航測數據的總和,即使一個人以最快的速度一刻不停地工作,也要花費幾年時間才能瀏覽完衛星一天內產生的圖片;生物學領域研究的數以百萬計的遺傳基因,世界各國定期進行的人口普查,國土資源地理信息,鐵路動態調度控制和公安司法部門的案件處理等都涉及巨量的數據,相當數量的數據具有很強的時效性,數據的價值隨著時間的推移而迅速降低。

數據收集與維護的最終目的是供人們使用。簡單的數據查詢或統計雖然可以滿足某些低層次的需求,但人們更為需要的是從大量數據資源中挖掘出對各類決策有指導意義的一般知識。它們是對大量數據的高度濃縮和抽象,是對數據整體的全面而深刻的反映,這些經過智能分析和表示的數據才是有價值和競爭力的社會資源。

KDD(Knowledge Discovery in Databases)技術就是在這樣一個時代背景下產生的。它的宗旨是在數據庫中分析處理大量的數據,發現有用的知識,為用戶提供所需問題的答案。數據庫知識發現比較公認的定義是:從數據集中識別出可信的、有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。“數據庫知識發現”一詞第一次出現是 1989 年 8 月在美國底特律召開的第 11 屆國際人工智能聯合會議的專題研討會上。1991 年、1993 年和 1994 年又分別舉行過數據庫知識發現專題研討會。由于參加會議的人數逐年增多,從 1995 年開始,每年都要舉辦一屆數據庫知識發現國際會議。

主站蜘蛛池模板: 宣汉县| 颍上县| 佛坪县| 南溪县| 浦县| 庆阳市| 朝阳区| 舞钢市| 象州县| 宾阳县| 焦作市| 汉中市| 周宁县| 新兴县| 黄梅县| 富宁县| 甘谷县| 通化市| 丹阳市| 临武县| 连平县| 资溪县| 固镇县| 长治县| 大姚县| 漳州市| 富裕县| 正宁县| 石城县| 英超| 和田县| 湛江市| 杨浦区| 临沭县| 棋牌| 新野县| 昌吉市| 湘潭县| 包头市| 利津县| 綦江县|