- 基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評估與應(yīng)用
- 鄔文帥
- 4351字
- 2021-04-19 17:07:23
1.3 文獻(xiàn)綜述
1.3.1 AHP群決策綜述
層次分析法(AHP),是由美國學(xué)者Saaty提出的一種用于解決多目標(biāo)、多方案的優(yōu)選和排序問題的一種決策分析方法[37-38]。在實際的管理決策過程中,該方法被廣泛地應(yīng)用在各個領(lǐng)域,如生產(chǎn)制造、組織管理、商業(yè)分析、業(yè)務(wù)流程評估、物流優(yōu)化、供應(yīng)鏈管理、金融、保險、風(fēng)險評估、科技成果評價等[36,39-40]。AHP的基本原理是根據(jù)目標(biāo)問題建立決策層級結(jié)構(gòu),通過專家咨詢和專家評分獲得兩兩對比判斷矩陣,據(jù)此計算其最大特征值和其特征向量,通過一致性測試,誘導(dǎo)而獲得各備選方案的最終排序。
隨著科技的迅猛發(fā)展和社會的長足進(jìn)步,決策問題變得越來越復(fù)雜,影響決策的因素也越來越多,并越發(fā)頻繁。期待由某一個決策者作出客觀、準(zhǔn)確、科學(xué)的決策是十分困難的,理由歸納如下[41]:①決策往往具有時間壓力或時效性,需要在某一段時間內(nèi)甚至當(dāng)即就要作出決策;②許多決策屬性、準(zhǔn)則很難定量化研究;③單一的專家或決策者會受到自身專業(yè)知識、經(jīng)驗背景、個人偏好的影響,尤其在處理現(xiàn)實的復(fù)雜問題時。
由于專家的個人偏好、專業(yè)知識和經(jīng)驗背景不同,由專家評分而獲得的兩兩對比矩陣也不盡相同,存在一定的主觀性。在面對現(xiàn)實中復(fù)雜的決策問題時,可能會造成對決策理解的偏差,甚至產(chǎn)生矛盾的結(jié)論。考慮多個專家的綜合意見、發(fā)揮群體智慧以消除個人決策者的主觀偏好,是十分必要的。AHP的本質(zhì)是將目標(biāo)問題分解為一個決策層級結(jié)構(gòu),通過專家咨詢和專家打分,經(jīng)過科學(xué)計算,最終合成一個優(yōu)先權(quán)向量,并進(jìn)行方案優(yōu)選和排序。AHP的決策過程是先分解再合成[42-43]。因此,學(xué)者們基于AHP原理與群決策理論,把專家意見融合到AHP的分解與合成的過程中,充分發(fā)揮交叉學(xué)科的融合優(yōu)勢,展開AHP群決策的研究。由于知識主要是指領(lǐng)域知識和專家經(jīng)驗,因此,本書把對AHP群決策的研究也定義為知識驅(qū)動的AHP研究。
群決策的本質(zhì)是研究如何有效集結(jié)個體意見以達(dá)成群體共識。Ishizaka and Labib[44]在其發(fā)表的對AHP綜述的研究論文中指出AHP群決策集結(jié)個體偏好最常用、最有效的方法有集結(jié)個體判斷矩陣(AIJ)和集結(jié)個體排序(AIP)兩種,其具體內(nèi)容如表1-1所示。集結(jié)個體判斷矩陣是指集結(jié)個體的每一組判斷矩陣形成群體判斷矩陣,集結(jié)個體排序是指集結(jié)每個個體的排序以形成群排序。然而,這兩種方法被學(xué)者認(rèn)為是彼此獨立的兩個集結(jié)方法[44-46],割裂了它們彼此的聯(lián)系,并沒有考慮相互依賴的關(guān)系。
表1-1 AHP群決策中集結(jié)個人決策意見的方式[44]

1.3.2 知識驅(qū)動的數(shù)據(jù)挖掘研究綜述
知識驅(qū)動的數(shù)據(jù)挖掘最早由Graco等在2007年的國際數(shù)據(jù)挖掘頂級會議上提出[19-20]。同年,富含知識的數(shù)據(jù)挖掘也在數(shù)據(jù)挖掘的權(quán)威期刊上由Domingos提出[17-18]。知識在這里是指領(lǐng)域知識、專家經(jīng)驗等。知識驅(qū)動的數(shù)據(jù)挖掘和富含知識的數(shù)據(jù)挖掘,盡管名稱有所不同,但其核心都是將領(lǐng)域知識、專家經(jīng)驗融入數(shù)據(jù)挖掘的理論與技術(shù)中,用來提高挖掘結(jié)果的質(zhì)量和效率。知識驅(qū)動的數(shù)據(jù)挖掘與方法驅(qū)動的數(shù)據(jù)挖掘有很大不同,方法驅(qū)動的數(shù)據(jù)挖掘的核心在于設(shè)計、開發(fā)魯棒的、高效率的新方法和新模型。由于許多研究者大多將精力聚焦在設(shè)計新模型和開發(fā)新方法上,而忽視了對挖掘出的結(jié)果進(jìn)行深入的處置與分析,用戶難以理解挖掘出的結(jié)果,能操作性的概率就更低,使得用戶不能夠輕松有效地掌握和使用它們,造成知識及數(shù)據(jù)資源的無形浪費。
把領(lǐng)域知識、專家經(jīng)驗融入數(shù)據(jù)挖掘中的難點問題是如何更好地協(xié)調(diào)人機之間知識的交流和互動。對我們?nèi)祟悂碇v,表達(dá)越豐富,溝通越暢通的語言如人類語言,越有助于促進(jìn)知識的交流和互動;而相對計算機而言,便于計算機自動識別和處置的語言如機器語言,則越能促進(jìn)知識的交流和互動。但當(dāng)前的技術(shù)實力和技術(shù)水平還難以直接讓計算機自動處理人類語言。針對這一難題,科學(xué)研究者作出了不懈的努力,也取得了一些研究成果:考慮到一階邏輯,也叫一階謂詞演算,能夠簡潔地表達(dá)清楚大多數(shù)人類語言的含義,并且提供了比較完備和準(zhǔn)確的推理功能[47]。于是,科學(xué)研究者通過將概率圖形的表達(dá)與一階邏輯相結(jié)合建立馬兒可夫邏輯網(wǎng),代表性的成果是Richardson和Domingos提出的馬可夫邏輯網(wǎng)[48],能較好地實現(xiàn)計算機以自動處理的方式理解、表達(dá)和交流領(lǐng)域知識。Bogorny等[49]提出的基于領(lǐng)域知識約束的最大頻繁模式挖掘方法,通過與經(jīng)典的Apriori方法對比分析,驗證了該方法可以減少80%的頻繁模式,從而大大地增強了挖掘結(jié)果的效率。同時美國華盛頓大學(xué)還設(shè)計和開發(fā)了一系列基于馬兒可夫邏輯網(wǎng)的模型、方法以及軟件工具來實現(xiàn)知識驅(qū)動的數(shù)據(jù)挖掘[50]。
國內(nèi)在知識驅(qū)動的數(shù)據(jù)挖掘方面也作了不少的探索性研究工作,并取得了一些成果。藍(lán)榮欽和楊曉梅[51]根據(jù)空間數(shù)據(jù)挖掘的特性和內(nèi)在需求,把領(lǐng)域?qū)<抑R分成三類,進(jìn)而剖析和概述了領(lǐng)域?qū)<抑R和領(lǐng)域?qū)<以诳臻g數(shù)據(jù)挖掘中的突出作用。鮑洪慶、石冰和王石[52]指出成功的數(shù)據(jù)清洗往往都需要考慮領(lǐng)域知識,于是開發(fā)和提出了一個基于領(lǐng)域知識的數(shù)據(jù)清洗框架。李雄炎等[53]則通過結(jié)合油層水淹領(lǐng)域的相關(guān)領(lǐng)域知識,基于數(shù)據(jù)挖掘的技術(shù)和方法,從領(lǐng)域驅(qū)動的角度建立儲集層水淹程度的預(yù)測模型。
本書的核心是基于領(lǐng)域知識、專家經(jīng)驗和多目標(biāo)決策對數(shù)據(jù)挖掘方法評估問題展開深入研究,由于起步較晚,還未形成較體系化的研究成果。而知識驅(qū)動的數(shù)據(jù)挖掘的最新研究成果正好可以很好地融入我們的研究當(dāng)中。
1.3.3 基于多目標(biāo)決策的數(shù)據(jù)挖掘研究綜述
1951年,Kuhn和Tukcer利用數(shù)學(xué)規(guī)劃模型研究目標(biāo)函數(shù)極大化問題,并給出了“有效解”存在的最優(yōu)條件,該“有效解”被稱為Kuhn-Tukcer有效解[54],為多目標(biāo)最優(yōu)化理論和實證研究奠定了重要的基礎(chǔ)。到20世紀(jì)70年代后,對多目標(biāo)最優(yōu)化問題的研究熱潮才在國內(nèi)外的學(xué)者中逐漸興起[55-56]。目前多目標(biāo)最優(yōu)化在數(shù)據(jù)挖掘中的研究主要集中在分類問題上,例如,健康保險欺詐分析中理賠申請的分類、信用卡用戶行為的分類、電訊用戶管理中用戶的分類[57]。典型的分類方法有邏輯回歸、貝葉斯網(wǎng)絡(luò)分類、SVM、KNN、遺傳方法、決策樹等[58]。各種分類方法從不同的角度對訓(xùn)練數(shù)據(jù)集(已標(biāo)注了類別的數(shù)據(jù))進(jìn)行分析,找出訓(xùn)練數(shù)據(jù)集中存在的普遍規(guī)律,經(jīng)過驗證后,將其用來對具有類似數(shù)據(jù)結(jié)構(gòu)的未知數(shù)據(jù)的類別進(jìn)行預(yù)測。
2011年以來,有學(xué)者把多目標(biāo)決策和數(shù)據(jù)挖掘技術(shù)結(jié)合起來進(jìn)行一些探索性的研究工作。Peng等[59]基于數(shù)據(jù)集成、多目標(biāo)決策方法和數(shù)據(jù)挖掘技術(shù)提出一個能夠有效應(yīng)對突發(fā)事件的信息管理框架。該框架由三個主要模塊組成:第一個模塊是高級別數(shù)據(jù)集成模塊,為了保障大量異構(gòu)的源數(shù)據(jù)以統(tǒng)一的方式集成和輸出;第二個模塊是數(shù)據(jù)挖掘模塊,使用數(shù)據(jù)挖掘方法來識別有用的模式,并為突發(fā)事件事前和事后的信息管理提供差異化的服務(wù);第三個模塊是多目標(biāo)決策模塊,其利用多目標(biāo)決策方法來評估突發(fā)事件當(dāng)前態(tài)勢,找出滿意的解決方案,并及時作出恰當(dāng)?shù)膽?yīng)對。Kou等[34]通過集成多目標(biāo)決策方法和數(shù)據(jù)挖掘技術(shù)來評估軟件可靠性問題。文章首先應(yīng)用數(shù)據(jù)挖掘分類方法對軟件缺陷數(shù)據(jù)進(jìn)行分類預(yù)測,再生成方法評估績效的性能指標(biāo),然后通過多目標(biāo)決策方法選出最佳的分類器。Kou和Wu[32]基于多目標(biāo)決策和數(shù)據(jù)挖掘理論與方法,針對信用風(fēng)險數(shù)據(jù),提出一個層次分析模型對分類方法進(jìn)行評估和優(yōu)選。該優(yōu)化模型可以快速準(zhǔn)確地識別出最魯棒的信用評分方法,進(jìn)而能夠進(jìn)一步有效地指導(dǎo)決策者規(guī)避信用風(fēng)險,并且該模型很好地解決了沒有免費午餐的定理指出的經(jīng)典問題。
由于多目標(biāo)決策在數(shù)據(jù)挖掘中的研究起步較晚,目前還尚未形成較體系化的研究成果。而且對基于多目標(biāo)決策的數(shù)據(jù)挖掘交叉集成研究,在建模、評估、決策和結(jié)果表現(xiàn)上,要求決策者既要具備多目標(biāo)決策方面的理論知識和技術(shù),又要了解數(shù)據(jù)挖掘方面的理論和技術(shù),從而導(dǎo)致了在建模過程中用戶參與度低、結(jié)果的可理解性和可操作性低等問題。同時,沒有免費午餐的定理指出無法找到一個普遍性的數(shù)據(jù)挖掘方法。每種數(shù)據(jù)挖掘方法有其適用的條件及各自的特點,為給定的目標(biāo)問題選定恰當(dāng)?shù)姆椒ㄊ蔷哂刑魬?zhàn)性的工作,它直接關(guān)系著挖掘結(jié)果的質(zhì)量和知識發(fā)現(xiàn)的效率。而結(jié)合領(lǐng)域知識、專家經(jīng)驗的數(shù)據(jù)挖掘方法為解決這些問題提供了可行的研究方向。
1.3.4 方法評估研究綜述
方法或模型評估問題普遍存在于數(shù)據(jù)挖掘、機器學(xué)習(xí)、商業(yè)分析和人工智能等領(lǐng)域,是一個具有挑戰(zhàn)性的研究熱點問題,并將一直存在[32]。方法或模型評估通常需要綜合考慮多方面的因素,例如方法或模型的預(yù)測效果能否達(dá)到要求,方法或模型的運行效率是否在可接受的范圍,方法或模型的穩(wěn)定性是否能夠滿足條件以及方法或模型的輸出結(jié)果是否容易被決策者理解等。
當(dāng)一組方法或模型的評估結(jié)果被獲得后,應(yīng)該在公平、公正的環(huán)境下評估方法或模型對數(shù)據(jù)的學(xué)習(xí)能力及預(yù)測能力,并且還應(yīng)該評價方法或模型的泛化能力,進(jìn)而驗證和識別出最優(yōu)的方法或模型。數(shù)據(jù)挖掘方法或模型的學(xué)習(xí)能力是指方法或模型學(xué)到隱含在目標(biāo)數(shù)據(jù)中信息或規(guī)律的能力;泛化能力則是方法或模型在新鮮樣本上的適應(yīng)能力,也就是方法或模型對新輸入的數(shù)據(jù)進(jìn)行科學(xué)合理的響應(yīng)能力。方法或模型的學(xué)習(xí)能力和泛化能力越高,則該方法或模型的理論價值和應(yīng)用價值也越大。但要提高方法或模型的泛化能力毋庸置疑是非常困難的,因為未來的數(shù)據(jù)結(jié)構(gòu)完全無法知曉,可能是和當(dāng)前的數(shù)據(jù)一致,也可能存在很大的差異,甚至可能完全不同。因此,目標(biāo)數(shù)據(jù)的結(jié)構(gòu)和分布特征對方法或模型的評估和選擇極為重要。為了消除數(shù)據(jù)本身的影響,文章是假定我們基于給定的數(shù)據(jù)集而展開方法評估的研究。
沒有免費午餐的定理指出不存在具有普適性的最優(yōu)方法或模型[60]。也就是說,沒有任何一種方法或模型可以在所有問題中都優(yōu)于其他方法或模型。到目前為止,對于數(shù)據(jù)挖掘方法評估問題并沒有一個明確、清晰的框架來選擇最佳的方法或模型。針對目標(biāo)問題如何選擇一種高效、可行的方法或模型變得尤為重要和困難。方法評估問題通常涉及多個評價準(zhǔn)則,如預(yù)測精度、誤分類率、運算時間等,因此,方法評估問題可被看作是一個多目標(biāo)決策問題[32]。對于數(shù)據(jù)挖掘方法的評估問題,學(xué)者們基于多目標(biāo)決策方法開展了一些研究。
Peng等[36]針對軟件缺陷預(yù)測問題,運用多目標(biāo)決策方法對分類方法性能進(jìn)行評估,試圖選擇最佳的分類器。Peng等[61]基于多目標(biāo)決策方法評估聚類方法中的簇數(shù)。Kou和Wu[32]基于多目標(biāo)決策和數(shù)據(jù)挖掘理論與方法,針對給定的信用評分?jǐn)?shù)據(jù),提出一個層次分析優(yōu)化模型對分類方法進(jìn)行優(yōu)選。該優(yōu)化模型能快速準(zhǔn)確地識別魯棒的信用評分方法。盡管基于多目標(biāo)決策方法對數(shù)據(jù)挖掘方法的評估已取得了一些成果,然而到目前為止,對于數(shù)據(jù)挖掘方法評估問題并沒有一個明確、清晰的框架來指導(dǎo)如何選擇最佳的方法。同時在建模的過程中,存在用戶參與度低、結(jié)果的可理解性和可操作性低等問題,使得用戶不能很好地理解它們,造成知識及數(shù)據(jù)資源的無形浪費。
因此,本書通過將領(lǐng)域知識、專家經(jīng)驗和多目標(biāo)決策理論引入到數(shù)據(jù)挖掘中,對基于多目標(biāo)決策的數(shù)據(jù)挖掘方法評估問題進(jìn)行深入研究,并且開展基于多目標(biāo)決策的數(shù)據(jù)挖掘的二次挖掘和知識發(fā)現(xiàn)的實證研究,以增強領(lǐng)域知識、專家經(jīng)驗在數(shù)據(jù)挖掘技術(shù)中的運用,提高挖掘的效率和結(jié)果的可理解性。
- ETL with Azure Cookbook
- Getting Started with Clickteam Fusion
- Hands-On Machine Learning on Google Cloud Platform
- 精通Excel VBA
- JBoss ESB Beginner’s Guide
- CompTIA Network+ Certification Guide
- Nginx高性能Web服務(wù)器詳解
- Excel 2007技巧大全
- Microsoft System Center Confi guration Manager
- INSTANT Heat Maps in R:How-to
- 精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)
- 從機器學(xué)習(xí)到無人駕駛
- Getting Started with Tableau 2019.2
- Oracle 11g基礎(chǔ)與提高
- Mastering Android Game Development with Unity