官术网_书友最值得收藏!

第1章 緒論

1.1 研究背景與意義

隨著物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、互聯(lián)網(wǎng)金融技術(shù)的突飛猛進(jìn),社會產(chǎn)生的數(shù)據(jù)正以前所未有的增長速度激增[1-2]。商業(yè)、科研和政府機(jī)構(gòu)相繼建立起許多大型的數(shù)據(jù)庫,積累了海量的異構(gòu)數(shù)據(jù)。伴隨計(jì)算機(jī)技術(shù)的迅猛發(fā)展,我們已經(jīng)步入了大數(shù)據(jù)時(shí)代,怎么從數(shù)量巨大且復(fù)雜異構(gòu)的數(shù)據(jù)中更好地提取出有用的信息,成為一個(gè)愈發(fā)重要且亟待解決的難點(diǎn)問題[3-5]。數(shù)據(jù)挖掘近年來作為信息處理的一門新興的核心骨干技術(shù)[6],其主要原理是從海量數(shù)據(jù)中挖掘、提取和識別出有價(jià)值的模式、知識和規(guī)律,并將其進(jìn)一步高效地指導(dǎo)商業(yè)決策和進(jìn)行科學(xué)研究[7-10]。目前數(shù)據(jù)挖掘已經(jīng)在金融領(lǐng)域、醫(yī)療領(lǐng)域、通信領(lǐng)域、制造領(lǐng)域、司法領(lǐng)域、軟件工程、生物工程等領(lǐng)域得到了廣泛應(yīng)用[11-15]。

方法或模型評估問題在許多學(xué)科領(lǐng)域都是一個(gè)活躍的且具有挑戰(zhàn)性的研究熱點(diǎn)問題,并且該問題將一直存在。沒有免費(fèi)的午餐定理(No Free Lunch)說明和指出:性能完全最優(yōu)的方法或模型是永遠(yuǎn)不存在的[16],也就是說,不存在具有普適性的最優(yōu)方法。而決策者往往又十分關(guān)注和重視最優(yōu)決策,如何針對給定的目標(biāo)問題或數(shù)據(jù)集,來選定合適的評估方法或模型以找尋最優(yōu)決策,建立一套高效實(shí)用的方法評估機(jī)制,是一個(gè)極具挑戰(zhàn)性的難題。近十幾年來,許多研究者側(cè)重于為各種數(shù)據(jù)挖掘任務(wù)(如關(guān)聯(lián)規(guī)則挖掘、分類、聚類等)和數(shù)據(jù)類型(如文本、圖形、多媒體等)建立新方法或新模型[17]。同時(shí)通過對在1944年到2005年期間發(fā)表的數(shù)據(jù)挖掘期刊、會議及學(xué)位論文進(jìn)行文獻(xiàn)調(diào)研分析,1600多篇論文中關(guān)于方法或模型的研究高達(dá)70%[18]。由于這些研究的核心在于設(shè)計(jì)和開發(fā)魯棒的、高效率的新方法或新模型,所以學(xué)者們把其稱為“方法驅(qū)動(dòng)的數(shù)據(jù)挖掘”[19]。方法驅(qū)動(dòng)的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的技術(shù)基礎(chǔ),推動(dòng)了數(shù)據(jù)挖掘?qū)W科的進(jìn)步。然而,由于許多研究者大多都將精力聚焦在設(shè)計(jì)新方法和開發(fā)新模型上,很少能夠?qū)ν诰虺龅慕Y(jié)果進(jìn)行深入的處置與分析,造成用戶難以理解挖掘出的結(jié)果,能操作性的概率就更低,使得用戶不能夠輕松、有效地掌握和使用它們,造成知識及數(shù)據(jù)資源的無形浪費(fèi)。

2007年,“知識驅(qū)動(dòng)的數(shù)據(jù)挖掘”最早由Graco等在國際數(shù)據(jù)挖掘的會議上提出[19-20]。在相同的年份,“富含知識的數(shù)據(jù)挖掘”由Domingos在數(shù)據(jù)挖掘的權(quán)威期刊上提出[17-18]。知識在這里是指領(lǐng)域知識、專家經(jīng)驗(yàn)等。知識驅(qū)動(dòng)的數(shù)據(jù)挖掘和富含知識的數(shù)據(jù)挖掘的提出,表明知識越來越被受到重視。從數(shù)據(jù)挖掘項(xiàng)目決策者的角度來看,其關(guān)注的核心問題仍然是知識發(fā)現(xiàn)的問題,強(qiáng)調(diào)的是能夠?yàn)槠髽I(yè)創(chuàng)造利潤、創(chuàng)造價(jià)值、提升競爭優(yōu)勢的可行動(dòng)知識[11]。由于行業(yè)背景不同,對數(shù)據(jù)挖掘結(jié)果的展現(xiàn)、理解方式、運(yùn)行時(shí)間、經(jīng)濟(jì)成本和質(zhì)量指標(biāo)要求等均有差異,如何縮小挖掘的結(jié)果與用戶心理預(yù)期之間的差距,提高挖掘結(jié)果的準(zhǔn)確性和實(shí)用性,是當(dāng)前數(shù)據(jù)挖掘,同時(shí)也是基于多目標(biāo)決策的數(shù)據(jù)挖掘研究的熱點(diǎn)和難點(diǎn)問題。

Rokach[21]認(rèn)為方法或模型的評估和選擇需要考慮多個(gè)度量指標(biāo),如方法或模型的預(yù)測精度、方法或模型的穩(wěn)定性、方法或模型的泛化能力等,因此可以被看作多目標(biāo)決策問題[21]。而多目標(biāo)決策方法不僅能夠基于多個(gè)相互矛盾乃至沖突的度量指標(biāo)進(jìn)行方案評估,而且還可以很好地反映決策者對評價(jià)指標(biāo)的主觀偏好,因此多目標(biāo)決策方法在方法或模型評估領(lǐng)域具有很大的潛在優(yōu)勢。現(xiàn)有的基于領(lǐng)域知識和專家經(jīng)驗(yàn)的研究成果同樣適用于基于多目標(biāo)決策的數(shù)據(jù)挖掘。而多目標(biāo)決策在數(shù)據(jù)選取、方法構(gòu)建、參數(shù)設(shè)置、結(jié)果表達(dá)這些步驟中所具有的特性,對知識驅(qū)動(dòng)的數(shù)據(jù)挖掘又提出了新的要求。

本書通過把領(lǐng)域知識、專家經(jīng)驗(yàn)和多目標(biāo)決策與數(shù)據(jù)挖掘相結(jié)合,突出交叉學(xué)科的融合優(yōu)勢,整合優(yōu)勢資源,對基于多目標(biāo)決策的數(shù)據(jù)挖掘的方法評估問題展開深入研究和探討,建立基于多目標(biāo)決策的數(shù)據(jù)挖掘的方法評估理論框架,并開發(fā)EWAHP-GDM方法來確定準(zhǔn)則權(quán)重。基于建立的方法評估理論框架,針對分類方法評估和聚類方法評估問題建立實(shí)證應(yīng)用,并開展二次挖掘與知識發(fā)現(xiàn),提高數(shù)據(jù)挖掘的效率和結(jié)果的可理解性。

主站蜘蛛池模板: 峨眉山市| 个旧市| 龙游县| 巩义市| 永德县| 明水县| 芦溪县| 梅州市| 嘉峪关市| 泰州市| 南和县| 昌都县| 禄劝| 江城| 华池县| 九龙坡区| 河源市| 梅河口市| 辽阳市| 屯留县| 榆社县| 高淳县| 南昌县| 呼和浩特市| 漳州市| 磴口县| 曲靖市| 洪江市| 林西县| 扬州市| 马尔康县| 深泽县| 阳西县| 罗平县| 宽甸| 竹溪县| 万年县| 从江县| 阿勒泰市| 拜泉县| 南平市|