- 基于多目標決策的數據挖掘方法評估與應用
- 鄔文帥
- 5字
- 2021-04-19 17:07:23
第1章 緒論
1.1 研究背景與意義
隨著物聯網、移動互聯網、互聯網金融技術的突飛猛進,社會產生的數據正以前所未有的增長速度激增[1-2]。商業、科研和政府機構相繼建立起許多大型的數據庫,積累了海量的異構數據。伴隨計算機技術的迅猛發展,我們已經步入了大數據時代,怎么從數量巨大且復雜異構的數據中更好地提取出有用的信息,成為一個愈發重要且亟待解決的難點問題[3-5]。數據挖掘近年來作為信息處理的一門新興的核心骨干技術[6],其主要原理是從海量數據中挖掘、提取和識別出有價值的模式、知識和規律,并將其進一步高效地指導商業決策和進行科學研究[7-10]。目前數據挖掘已經在金融領域、醫療領域、通信領域、制造領域、司法領域、軟件工程、生物工程等領域得到了廣泛應用[11-15]。
方法或模型評估問題在許多學科領域都是一個活躍的且具有挑戰性的研究熱點問題,并且該問題將一直存在。沒有免費的午餐定理(No Free Lunch)說明和指出:性能完全最優的方法或模型是永遠不存在的[16],也就是說,不存在具有普適性的最優方法。而決策者往往又十分關注和重視最優決策,如何針對給定的目標問題或數據集,來選定合適的評估方法或模型以找尋最優決策,建立一套高效實用的方法評估機制,是一個極具挑戰性的難題。近十幾年來,許多研究者側重于為各種數據挖掘任務(如關聯規則挖掘、分類、聚類等)和數據類型(如文本、圖形、多媒體等)建立新方法或新模型[17]。同時通過對在1944年到2005年期間發表的數據挖掘期刊、會議及學位論文進行文獻調研分析,1600多篇論文中關于方法或模型的研究高達70%[18]。由于這些研究的核心在于設計和開發魯棒的、高效率的新方法或新模型,所以學者們把其稱為“方法驅動的數據挖掘”[19]。方法驅動的數據挖掘是數據挖掘的技術基礎,推動了數據挖掘學科的進步。然而,由于許多研究者大多都將精力聚焦在設計新方法和開發新模型上,很少能夠對挖掘出的結果進行深入的處置與分析,造成用戶難以理解挖掘出的結果,能操作性的概率就更低,使得用戶不能夠輕松、有效地掌握和使用它們,造成知識及數據資源的無形浪費。
2007年,“知識驅動的數據挖掘”最早由Graco等在國際數據挖掘的會議上提出[19-20]。在相同的年份,“富含知識的數據挖掘”由Domingos在數據挖掘的權威期刊上提出[17-18]。知識在這里是指領域知識、專家經驗等。知識驅動的數據挖掘和富含知識的數據挖掘的提出,表明知識越來越被受到重視。從數據挖掘項目決策者的角度來看,其關注的核心問題仍然是知識發現的問題,強調的是能夠為企業創造利潤、創造價值、提升競爭優勢的可行動知識[11]。由于行業背景不同,對數據挖掘結果的展現、理解方式、運行時間、經濟成本和質量指標要求等均有差異,如何縮小挖掘的結果與用戶心理預期之間的差距,提高挖掘結果的準確性和實用性,是當前數據挖掘,同時也是基于多目標決策的數據挖掘研究的熱點和難點問題。
Rokach[21]認為方法或模型的評估和選擇需要考慮多個度量指標,如方法或模型的預測精度、方法或模型的穩定性、方法或模型的泛化能力等,因此可以被看作多目標決策問題[21]。而多目標決策方法不僅能夠基于多個相互矛盾乃至沖突的度量指標進行方案評估,而且還可以很好地反映決策者對評價指標的主觀偏好,因此多目標決策方法在方法或模型評估領域具有很大的潛在優勢。現有的基于領域知識和專家經驗的研究成果同樣適用于基于多目標決策的數據挖掘。而多目標決策在數據選取、方法構建、參數設置、結果表達這些步驟中所具有的特性,對知識驅動的數據挖掘又提出了新的要求。
本書通過把領域知識、專家經驗和多目標決策與數據挖掘相結合,突出交叉學科的融合優勢,整合優勢資源,對基于多目標決策的數據挖掘的方法評估問題展開深入研究和探討,建立基于多目標決策的數據挖掘的方法評估理論框架,并開發EWAHP-GDM方法來確定準則權重。基于建立的方法評估理論框架,針對分類方法評估和聚類方法評估問題建立實證應用,并開展二次挖掘與知識發現,提高數據挖掘的效率和結果的可理解性。