官术网_书友最值得收藏!

1.5 數據挖掘建模框架的3個原則

筆者提出了數據挖掘建模框架的3個原則,即以成本-收益分析為單一分析框架、以分析主體和客體為視角構建全模型生命周期工作模板,將紛繁多樣的數據挖掘應用主題歸納為3大分析范式和9大工作模板,如圖1-18所示。

圖1-18 3大分析范式和9大工作模板

1.以成本-收益分析為單一分析框架

世上萬事萬物都具有矛盾的兩面性,金融數據挖掘建模力圖通過數據反映行為背后的規律,緊抓主要矛盾就是找尋規律的捷徑。大家都知道,挖掘有效的入模特征是數據建模的難點。一旦我們了解了分析課題的主要矛盾,這個難點就迎刃而解了。下面講解如何使用這個框架進行分析。

首先舉3個例子。

1)信用評分模型中,是否逾期是被預測變量,而解釋變量中經常出現的收入穩定性、職業穩定性、家庭穩定性、個人社會資本都是在度量客戶違約成本。信用歷史既是被解釋變量的滯后項,也能反映違約成本。收益會用貸存比、貸收比、首付占比等指標來衡量。

2)申請欺詐模型的標簽往往是客觀存在的。入模特征以反映異常為主,比如異常高的收入、異常高的學歷、異常密集的關系網絡等。這背后隱藏著統一的成本-收益分析框架。之所以會顯示異常,是因為造假是有成本的,信用卡申請欺詐者知道收入證明造假可以獲得更高的信用額度,但是由于其居住地、職業和學歷沒有造假,因此按照這三個維度對其收入進行標準化之后很容易發現其收入異常。這可以說是公開的秘密,因為信用卡發放公司會根據造假成本對非可靠申請者進行授信,使得欺詐者無利可圖。

3)運營優化模型比如資產組合的持倉問題,其收益是資產的收益率,而成本是該資產市場價格的波動率。建模人員需要選擇收益-成本最優的組合。

2.以分析主體和客體為視角

在數據挖掘建模中,定義標簽是主體視角。比如營銷預測模型中客戶是否響應,是建模人員自己定的規則,這個規則有可能是收到營銷短信后三天內注冊賬號并產生訂單。在構建入模的特征集時需要采用客體視角,比如手機銀行的營銷響應模型中,入模的特征應該反映客體的成本-收益的變量,比如年齡反映的是使用手機銀行和去實體渠道的成本。當建模人員意識到標簽是自己主觀臆斷的時候,便會對該標簽的選擇更用心;當意識到入模的特征來自客體時,才會從客體的視角出發更高效地構建特征集。

3.構建全模型生命周期工作模板

我們在CRIP-DM和SEMMA的基礎上提出“高質量數據挖掘模型開發七步法”,如圖1-19所示。前三步是蓄勢階段,更多的是從業務人員、數據中吸收經驗并形成感知。制作特征、變量處理和建立模型階段是豐富特征、尋找有效模型的階段,需要通過各種手段探查到最有效的特征和精度最高的模型。最后是模型輸出階段,選出的模型不但精度高,還要穩定性強。

圖1-19 業務人員的業務表述

主站蜘蛛池模板: 淮阳县| 高唐县| 修水县| 宿松县| 马边| 襄城县| 富蕴县| 金门县| 商洛市| 岳阳县| 徐汇区| 绥阳县| 蓬安县| 关岭| 漳平市| 江门市| 会理县| 左贡县| 调兵山市| 上饶市| 长葛市| 习水县| 镇康县| 遵义市| 比如县| 阜阳市| 呈贡县| 德保县| 凤冈县| 白河县| 云阳县| 招远市| 宿迁市| 朝阳市| 宁德市| 莒南县| 江口县| 黄陵县| 曲水县| 晋宁县| 宜川县|