官术网_书友最值得收藏!

1.4.7 數(shù)據(jù)挖掘

計算機網(wǎng)絡發(fā)展得越來越快,計算機處理的信息量也隨之增加。然而,數(shù)據(jù)庫中存儲著許多沒有被有效利用的信息,這不僅造成了資源浪費,還導致了數(shù)據(jù)垃圾堆積。為此,人們開始嘗試從數(shù)據(jù)庫中挖掘出新的知識。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)就是涌現(xiàn)出的兩種方法。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取出有價值或者有意義的信息或者模式;知識發(fā)現(xiàn)就是將這些信息或者模式轉化為可理解或者可應用的知識。這兩個概念都屬于20世紀90年代初期興起并日益活躍的一個研究領域。

人們可以用知識發(fā)現(xiàn)系統(tǒng)來從數(shù)據(jù)庫中找出新的知識。這個系統(tǒng)會用各種學習方法,自動地分析數(shù)據(jù)庫里面很多沒有處理過的數(shù)據(jù)。它會從這些數(shù)據(jù)里面篩選出有規(guī)律性和意義性的信息,比如客戶購買行為、市場趨勢、疾病預防等。這樣,就能看到這些數(shù)據(jù)之間有什么聯(lián)系和規(guī)律,也就能得到新的知識。知識發(fā)現(xiàn)就是整個從數(shù)據(jù)庫中找出新知識的過程。而數(shù)據(jù)挖掘只是其中一個重要的環(huán)節(jié),就是用數(shù)學或者統(tǒng)計方法來提取信息。

數(shù)據(jù)挖掘就是從數(shù)據(jù)庫里發(fā)現(xiàn)有用的模式,也就是一些能夠表示知識的規(guī)則、聚類、決策樹或依賴網(wǎng)絡等。一般來說,數(shù)據(jù)挖掘要經(jīng)過四個步驟,即數(shù)據(jù)預處理、建模、模型評估和模型應用。在數(shù)據(jù)預處理階段,要了解數(shù)據(jù)的特點,選擇合適的屬性,把連續(xù)屬性分成幾個區(qū)間,處理數(shù)據(jù)中的噪聲和缺失值,選擇有效的實例等。在建模階段,要選擇合適的學習算法,并確定算法的參數(shù)。在模型評估階段,要用訓練集和測試集來檢驗模型的性能,并對模型進行評價。如果得到了滿意的模型,就可以用它來解釋新數(shù)據(jù)。

知識獲取是人工智能領域一個很重要的問題。因此,在人工智能研究中,知識發(fā)現(xiàn)和數(shù)據(jù)挖掘也就成了一個熱門話題。

主站蜘蛛池模板: 天等县| 沾益县| 定陶县| 唐海县| 丰顺县| 高州市| 资阳市| 工布江达县| 辉南县| 九龙县| 体育| 林芝县| 百色市| 伽师县| 丹巴县| 颍上县| 安西县| 嘉兴市| 道真| 喀喇沁旗| 湖口县| 南溪县| 图片| 柳河县| 肥西县| 辽宁省| 盐源县| 赤水市| 治县。| 垣曲县| 田阳县| 遵化市| 揭西县| 若羌县| 肥东县| 民乐县| 北流市| 钟祥市| 阳谷县| 彭阳县| 新宾|