- 金融商業算法建模:基于Python和SAS
- 趙仁乾 田建中 葉本華 常國珍
- 1091字
- 2021-11-05 17:52:02
1.5 數據挖掘建模框架的3個原則
筆者提出了數據挖掘建模框架的3個原則,即以成本-收益分析為單一分析框架、以分析主體和客體為視角構建全模型生命周期工作模板,將紛繁多樣的數據挖掘應用主題歸納為3大分析范式和9大工作模板,如圖1-18所示。

圖1-18 3大分析范式和9大工作模板
1.以成本-收益分析為單一分析框架
世上萬事萬物都具有矛盾的兩面性,金融數據挖掘建模力圖通過數據反映行為背后的規律,緊抓主要矛盾就是找尋規律的捷徑。大家都知道,挖掘有效的入模特征是數據建模的難點。一旦我們了解了分析課題的主要矛盾,這個難點就迎刃而解了。下面講解如何使用這個框架進行分析。
首先舉3個例子。
1)信用評分模型中,是否逾期是被預測變量,而解釋變量中經常出現的收入穩定性、職業穩定性、家庭穩定性、個人社會資本都是在度量客戶違約成本。信用歷史既是被解釋變量的滯后項,也能反映違約成本。收益會用貸存比、貸收比、首付占比等指標來衡量。
2)申請欺詐模型的標簽往往是客觀存在的。入模特征以反映異常為主,比如異常高的收入、異常高的學歷、異常密集的關系網絡等。這背后隱藏著統一的成本-收益分析框架。之所以會顯示異常,是因為造假是有成本的,信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業和學歷沒有造假,因此按照這三個維度對其收入進行標準化之后很容易發現其收入異常。這可以說是公開的秘密,因為信用卡發放公司會根據造假成本對非可靠申請者進行授信,使得欺詐者無利可圖。
3)運營優化模型比如資產組合的持倉問題,其收益是資產的收益率,而成本是該資產市場價格的波動率。建模人員需要選擇收益-成本最優的組合。
2.以分析主體和客體為視角
在數據挖掘建模中,定義標簽是主體視角。比如營銷預測模型中客戶是否響應,是建模人員自己定的規則,這個規則有可能是收到營銷短信后三天內注冊賬號并產生訂單。在構建入模的特征集時需要采用客體視角,比如手機銀行的營銷響應模型中,入模的特征應該反映客體的成本-收益的變量,比如年齡反映的是使用手機銀行和去實體渠道的成本。當建模人員意識到標簽是自己主觀臆斷的時候,便會對該標簽的選擇更用心;當意識到入模的特征來自客體時,才會從客體的視角出發更高效地構建特征集。
3.構建全模型生命周期工作模板
我們在CRIP-DM和SEMMA的基礎上提出“高質量數據挖掘模型開發七步法”,如圖1-19所示。前三步是蓄勢階段,更多的是從業務人員、數據中吸收經驗并形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,需要通過各種手段探查到最有效的特征和精度最高的模型。最后是模型輸出階段,選出的模型不但精度高,還要穩定性強。

圖1-19 業務人員的業務表述
- MySQL高可用解決方案:從主從復制到InnoDB Cluster架構
- 達夢數據庫編程指南
- SQL Server 2008數據庫應用技術(第二版)
- 商業分析思維與實踐:用數據分析解決商業問題
- Spark核心技術與高級應用
- 城市計算
- 爬蟲實戰:從數據到產品
- 聯動Oracle:設計思想、架構實現與AWR報告
- Unreal Engine Virtual Reality Quick Start Guide
- 改變未來的九大算法
- Mastering ROS for Robotics Programming(Second Edition)
- openGauss數據庫核心技術
- 云工作時代:科技進化必將帶來的新工作方式
- Microsoft Dynamics NAV 2015 Professional Reporting
- Kubernetes快速進階與實戰