官术网_书友最值得收藏!

1.1.2 知識發(fā)現(xiàn)和KDD

知識發(fā)現(xiàn)是從數(shù)據(jù)集中抽取和精化新的模式的過程。知識發(fā)現(xiàn)的范圍非常廣泛,可以是經(jīng)濟、工業(yè)、農(nóng)業(yè)、軍事、社會、商業(yè)、科學(xué)的數(shù)據(jù)或衛(wèi)星觀測得到的數(shù)據(jù),數(shù)據(jù)的形態(tài)有數(shù)字、符號、圖形、圖像、聲音等。數(shù)據(jù)組織方式也各不相同,可以是結(jié)構(gòu)、半結(jié)構(gòu)或非結(jié)構(gòu)的,知識發(fā)現(xiàn)的結(jié)果可以表示為各種形式,包括規(guī)則、法則、科學(xué)規(guī)律、方程或概念網(wǎng)等。

目前,關(guān)系型數(shù)據(jù)庫應(yīng)用廣泛,并且具有統(tǒng)一的組織結(jié)構(gòu)、一體化的查詢語言、關(guān)系之間及屬性之間具有平等性等優(yōu)點,因此基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(Knowledge Dissovery in Database,KDD)是知識發(fā)現(xiàn)研究的主體和熱點。1989 年,F(xiàn)ayyad 定義KDD 為“從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可以理解的模式的非平凡過程”。在此定義中,涉及幾個需要進(jìn)一步解釋的概念:“數(shù)據(jù)集”、“模式”、“過程”、“有效性”、“新穎性”、“潛在有效性”和“最終可理解性”。數(shù)據(jù)集是一組事實 F(如關(guān)系數(shù)據(jù)庫中的記錄)。模式是一個用語言 L 來表示的一個表達(dá)式 E,它可用來描述數(shù)據(jù)集 F 的某個子集 FE,E作為一個模式要求它比對數(shù)據(jù)子集 FE 的枚舉要簡單(所用的描述信息量要少)。過程在 KDD 中通常指多階段的處理,涉及數(shù)據(jù)準(zhǔn)備、模式搜索、知識評價以及反復(fù)的修改求精。該過程要求是非平凡的,即要有一定程度的智能性、自動性(僅僅給出所有數(shù)據(jù)的總和不能算作是一個發(fā)現(xiàn)過程)。有效性是指發(fā)現(xiàn)的模式對于新的數(shù)據(jù)仍保持有一定的可信度。新穎性要求發(fā)現(xiàn)的模式應(yīng)該是新的,不同于以往的知識或模式。潛在有用性是指發(fā)現(xiàn)的知識將來有實際效用,如用于決策支持系統(tǒng)里可提高經(jīng)濟效益。最終可理解性要求發(fā)現(xiàn)的模式能被用戶理解,目前它主要體現(xiàn)在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起稱為興趣性。

由于知識發(fā)現(xiàn)是一門受到來自不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多術(shù)語名稱。除了 KDD 外,主要還有如下若干種稱法:“數(shù)據(jù)挖掘”(Data Mining),“知識抽取”(Information Extraction),“信息發(fā)現(xiàn)”(Information Discovery),“智能數(shù)據(jù)分析”(Intelligent Data Analysis),“探索式數(shù)據(jù)分析”(Exploratory Data Analysis)和“信息收獲”(Information Harvesting)等。其中最常用的是“知識發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是存在交叉的兩個概念。對這兩個概念之間的關(guān)系,流行的有兩種觀點:一種觀點認(rèn)為,數(shù)據(jù)挖掘與知識發(fā)現(xiàn)是等同的概念,只不過在不同的領(lǐng)域叫法不同而已。在科研領(lǐng)域,知識發(fā)現(xiàn)使用較多,在工程應(yīng)用領(lǐng)域則多稱之為數(shù)據(jù)挖掘;另一種觀點認(rèn)為數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的一個階段,而且是核心階段。該觀點給出的定義是:知識發(fā)現(xiàn),就是從大型數(shù)據(jù)庫數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的、潛在有用的信息。業(yè)界更傾向于第二種觀點。從知識產(chǎn)生的過程角度看待知識發(fā)現(xiàn)和數(shù)據(jù)挖掘,得出以下結(jié)論。

(1)知識發(fā)現(xiàn)是把低級別的數(shù)據(jù)轉(zhuǎn)化為高級別數(shù)據(jù)的過程。所謂高級別數(shù)據(jù),是具有特殊含義的數(shù)據(jù)。在工程應(yīng)用中,根據(jù)不同的使用階段和價值,又細(xì)分為信息和知識。信息可被理解為有特殊意義的數(shù)據(jù);知識則表達(dá)為在特定應(yīng)用領(lǐng)域,通過使用有價值的信息而在人腦中形成的、具有概括和總結(jié)特性的認(rèn)識。知識可表示為概念(Concepts),規(guī)則(Rules),規(guī)律(Regulations),模式(Patterns)等形式。從知識發(fā)現(xiàn)的整個過程來看(圖 1.1),數(shù)據(jù)挖掘是知識發(fā)現(xiàn)實現(xiàn)從數(shù)據(jù)到信息和知識轉(zhuǎn)變的關(guān)鍵一步,是從大量數(shù)據(jù)中提取可信的、新穎的、有效的模式的高級處理過程。

圖1.1 知識發(fā)現(xiàn)的過程

(2)如果把知識發(fā)現(xiàn)理解為一個過程或系統(tǒng),數(shù)據(jù)挖掘是這一過程或系統(tǒng)的一個可自動執(zhí)行的工具。挖掘算法是數(shù)據(jù)挖掘重要的組成部分。為解決特定的商業(yè)問題,一種或多種算法需要被選擇、編譯,在適于挖掘的數(shù)據(jù)環(huán)境下實施挖掘任務(wù)。從圖 1.1看出,知識發(fā)現(xiàn)是需要人工參與的多環(huán)節(jié)過程。

數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。提取的信息和知識必須具備可信、新穎、有效和易于理解這四個特點。

主站蜘蛛池模板: 民勤县| 海林市| 天峻县| 镇平县| 巴青县| 阿瓦提县| 六安市| 镶黄旗| 宁化县| 如皋市| 绥化市| 萨迦县| 西畴县| 大关县| 祁门县| 阿巴嘎旗| 新源县| 靖西县| 乌兰浩特市| 龙游县| 双江| 重庆市| 许昌市| 博乐市| 大同市| 栖霞市| 惠州市| 抚顺县| 惠东县| 吉隆县| 临漳县| 南乐县| 永善县| 柳林县| 江陵县| 潞西市| 金湖县| 望江县| 青田县| 宜章县| 阳春市|