- 高維聚類知識發現關鍵技術研究及應用
- 陳建斌著
- 1263字
- 2018-12-27 17:34:50
1.2.2 KDD的一般機理和理論基礎
1. 一般機理
推理、聯想和學習是人類智能活動的三大主要功能,推理和聯想的功能必須通過學習才能不斷完善、充實,因而學習是一切智能活動的基礎。使計算機系統具有某些程度的學習能力,能夠模擬人類的學習活動,一直是人工智能領域所追求的目標。
儲存在數據庫中的結構化數據,是對現實世界某種程度上符號化和數據化的抽象,是對現實世界事物某一程度、某一側面的映射,所使用的抽象方式和抽象層次主要取決于具體的應用模式。考慮到數據采集過程中可能引入誤差,因而要求數據庫至少能夠在總體上反映現實世界,否則數據庫就不能使用。數據庫中的元組可以認為是一些低抽象程度的判斷。
2. 主要研究方法
KDD 的主要實施對象是關系數據庫。這是因為關系數據庫具有歸一化的組織結構、一體化的查詢語言、方便的用戶接口和能進行集合處理的優點,而且在各行業中應用最廣泛。另外,關系數據庫中各關系之間、各屬性之間都是平等的,有利于知識發現過程中的并行計算。由于 KDD 的研究對象比較特殊,一般都是大型數據庫,其中的數據容量往往是一般人工智能系統所不能比擬的,因此,KDD 的研究方法及技術策略就有其鮮明的特色。
首先,在研究上遵循認識的基本過程,即實踐—認識—再實踐—再認識。KDD 一改過去以演繹邏輯為主的策略,在本質上以歸納邏輯為主,采用從個別到一般,從感性到理性的知識抽象過程。當然,在知識發現過程中,也不能完全拋棄演繹,而是歸納和演繹相結合。
其次,KDD 的技術策略也有其特點。把握事物的規則性是人腦思維的重要功能,精確數學就是這種功能的產物和表現。這種定量的分析和計算在以往的知識發現過程中應用得較多,特別在統計學領域。但是,在定量基礎上的定性歸納有時也能夠深刻地反映問題的本質,并且用較少的代價就能傳遞足夠的信息,對復雜事物做出高效率的判斷和推理。所以在知識發現過程中,把定性分析和定量分析相結合也是非常重要的,既采用定量的計算來分析和處理數據,也充分重視定性思維和描述的作用。具體來說,知識發現系統應該用語言值來把握過于復雜無法數值化的量的規則性,通過比較來反映事物在量的規則性上的差異。
3. 抽取知識的類型和表示
(1)依賴關系。若其中一項的數據可以預測另一項的數據即A→B,則稱這兩項存在依賴關系。當確定依賴關系不存在時,可以附加不確定度量:A→(0.95)B。這一類知識可用于數據庫知識的歸一化、查詢優化,還可用于最小化決策樹、搜索數據特例等,甚至可以被系統中其他的發現算法使用。
(2)分類知識。數據子類的標識知識。子類可由某一現有屬性確定,也可由附加的領域知識來定義,KDD 系統基于分類知識的發現任務促進了交互式新型聚類算法的發展,即處理器計算能力和用戶知識及可視化工具的有機集成。
(3)描述性知識。關于類別特征的概括性描述。主要包括兩類知識:特征描述知識和區分性知識。特征描述知識是指本類數據所共有的,區分性知識是指本類區別于其他類的特性。
(4)偏差性知識。關于類別差異的描述。包括:標準類中的特例,各類邊緣外的孤立點,時序關系上單屬性值和集合取值的不同,實際觀測值和系統預測值間的顯著差別等。