官术网_书友最值得收藏!

第3章 知識驅動的多目標決策的數據挖掘方法評估理論框架

3.1 研究背景

隨著云技術、物聯網、移動互聯網以及互聯網金融技術的突飛猛進,社會產生的數據正以前所未有的增長速度激增[1-2]。商業、科研和政府機構相繼建立起許多大型的數據庫,積累了海量的異構數據。數量巨大且復雜異構的數據可以被形容為“數據豐富但信息貧乏”。信息管理系統可以對大量的數據進行收集、傳輸、加工、儲存、更新和維護,以企業戰略競優,提高企業效益和效率為目的,為企業高層決策、中層控制、基層運作提供技術化服務的集成信息系統。信息管理系統并不能直接理解數據,也不能和數據直接互動。同時,重要和關鍵性的決策也并不是基于存儲設備中的大量數據而作出的,而是依靠大量數據背后所隱藏的知識而科學地作出正確的決策。數據挖掘近年來作為信息處理的一門新興的核心骨干技術,雖然誕生時間并不是很長,但是發展十分迅速,并取得了廣泛的應用。其主要原理是從海量數據中挖掘、提取和識別有價值的模式、知識與規律,并將其進一步高效地指導商業決策和進行科學研究[8-9]

數據挖掘雖然誕生的時間不長,并且歷史較短,但其發展極為迅速,已在許多領域得到了廣泛的應用,如金融領域、醫療領域、通信領域、制造領域、司法領域、軟件工程、生物工程等[11-15]。經過二十多年的研究和發展,關于數據挖掘的新模型和新方法更是層出不窮。通過文獻調研,對在1994年到2005年期間發表的數據挖掘期刊、會議及學位論文進行分析,1600多篇論文中關于方法和模型的研究就高達70%[18]。由于這些研究的核心在于設計和開發魯棒的、高效率的新模型和新方法,關注的是預測精度和運行時間,所以學者們把其稱為“方法驅動的數據挖掘”[19]。數據挖掘方法或模型的確定是在海量數據中知識發現的一個重要而又艱難的步驟,很大程度上決定著數據挖掘的成敗。通過對神經網絡、關聯規則、K-Means聚類、決策樹等數據挖掘方法的對比研究,分析了一些挖掘方法的特性及適用情況,如表3-1所示[112]。同時Wolpert和Macready[60]在沒有免費午餐的定理中,指出不存在一個普適性的最優方法。一個方法可能在某個領域準確率高、非常有效,但是在另外一個研究領域,結果卻可能完全不適合;或者在具有不一樣數據結構的數據上,也可能使得方法完全失效。因此,針對目標問題,如何對模型進行科學準確的評估,進而選出適合數據集的、有效的方法或模型成為科學研究任務首要解決的一項難題。

表3-1 數據挖掘方法特性[112]

方法或模型的評估問題在數據挖掘、統計學習、人工智能、商業分析、機器學習等領域是一個研究熱點問題。在管理學領域,如信用風險管理,也涉及方法或模型的評估問題。然而,Wolpert和Macready[60]明確指出在考慮到對所有函數的相互補償行為時,最優化方法的性能是等價的。也就是說,對于給定的目標問題,不存在任何單一的方法或模型可以達到完全最優的性能。既然不存在普適性的最優方法,而決策者往往又十分期待和關注最優決策,這一矛盾如何調和呢?如何針對給定的目標問題或數據集,來選定合適的評估方法或模型呢?這些極具挑戰性的問題,將一直存在。

本章聚焦此熱點問題,根據沒有免費午餐的定理,通過結合領域知識和專家經驗,確立本研究的技術方案,重點關注數據挖掘中分類和聚類方法評估問題,建立基于多目標決策的數據挖掘方法評估理論框架。Rokach[21]認為方法或模型的評估需要考慮多個度量指標,如方法或模型的預測精度、運行時間、穩定性和泛化能力等,可以被看作多目標決策問題,而多目標決策方法不僅能夠基于多個相互矛盾乃至沖突的度量指標進行方案評估,而且還可以很好地反映決策者對評價指標的主觀偏好,因此多目標決策方法在方法或模型評估領域具有極大的潛在優勢。

2011年以來,有些學者把多目標決策和數據挖掘技術結合起來,進行了一些探索性的研究工作。Peng等[59]基于數據集成、多目標決策方法和數據挖掘技術提出一個能夠有效應對突發事件的信息管理框架。該框架由三個主要模塊組成:第一個模塊是高級別數據集成模塊,為了保障大量異構的源數據以統一的方式集成和輸出;第二個模塊是數據挖掘模塊,使用數據挖掘方法來識別有用的模式,并為突發事件事前和事后的信息管理提供差異化的服務;第三個模塊是多目標決策模塊,其利用多目標決策方法來評估突發事件當前態勢,找出滿意的解決方案,并及時作出恰當的應對。Peng等[33]指出不相關和冗余的數據特征,可能會降低分類器的性能,同時也會延緩預測過程。此外,在預測領域的另一個問題是在大量的分類方法中如何確定它們的可用性。本書針對預測問題提出了一種特征選擇和分類評估的綜合評估方案。它結合了傳統的特征選擇技術和多目標決策方法,以試圖提高分類方法的預測精度,并針對不同類型的數據集選擇適合的分類器。Kou等[34]通過集成多目標決策方法和數據挖掘技術來評估軟件可靠性問題。文章首先應用數據挖掘分類方法對軟件缺陷數據進行分類預測,生成方法評估績效的性能指標,然后通過多目標決策方法選出最佳的分類器。Kou和Wu[32]基于多目標決策和數據挖掘理論與方法,針對信用風險數據,提出一個層次分析模型對分類方法進行評估和優選。該優化模型可以快速準確地識別出最魯棒的信用評分方法,進而能夠進一步有效地指導決策者規避信用風險,并且該模型很好地解決了沒有免費午餐的定理指出的經典難題。

由于多目標決策在數據挖掘中的研究起步較晚,還未形成較體系化的研究成果,而且基于多目標決策的數據挖掘交叉集成研究,在建模、評估、決策和結果表現上,要求決策者既要具備多目標決策方面的知識,又要了解數據挖掘方面的技術,從而導致了在建模過程中用戶參與度低、結果的可理解性和可操作性低等問題。同時,沒有免費午餐的定理指出無法找到一個普遍性的數據挖掘方法。每種數據挖掘方法有其適用的條件及各自的特點,為給定的目標問題選定適合有效的模型是一項具有挑戰性的工作,它直接關系著挖掘結果的質量和知識發現的效率。而通過結合領域知識和專家經驗,提出基于多目標決策的數據挖掘方法評估理論框架為解決這些問題提供了可行的研究方向。

主站蜘蛛池模板: 南昌市| 新民市| 沙洋县| 鹤岗市| 双城市| 福建省| 横峰县| 瑞昌市| 休宁县| 锡林浩特市| 五峰| 广昌县| 永春县| 蕲春县| 乌拉特后旗| 渭源县| 渝北区| 固始县| 涞水县| 连江县| 山西省| 武威市| 南召县| 浦东新区| 正定县| 义马市| 陵川县| 凤台县| 宕昌县| 松江区| 营山县| 科技| 兴业县| 襄汾县| 蓬安县| 葵青区| 汾西县| 新巴尔虎左旗| 合江县| 自贡市| 西乡县|