- 金融商業(yè)算法建模:基于Python和SAS
- 趙仁乾 田建中 葉本華 常國珍
- 2797字
- 2021-11-05 17:52:00
1.3.1 預(yù)測性——有監(jiān)督學(xué)習(xí)
預(yù)測性分析指的是用一個(gè)或多個(gè)自變量預(yù)測因變量的值,以歷史數(shù)據(jù)為訓(xùn)練集,從中學(xué)習(xí)并建立模型,然后將此模型運(yùn)用到當(dāng)前數(shù)據(jù)上,推測結(jié)果。以客戶違約作為預(yù)測性分析的研究場景,客戶是否會(huì)違約是一個(gè)因變量,我們可以根據(jù)客戶的性別、年齡、收入、職位、經(jīng)濟(jì)狀況、歷史信用狀況等進(jìn)行預(yù)測。
根據(jù)SAS工程師總結(jié)的商業(yè)案例,分類模型可分為三大類。
·決策類,如銀行卡欺詐檢測、人體生物特征識(shí)別。
·等級(jí)評(píng)定類,如客戶信用評(píng)分。
·估計(jì)類,如違約損失準(zhǔn)備金估計(jì)、收入預(yù)測等。
有些數(shù)據(jù)挖掘算法在某類應(yīng)用上表現(xiàn)得更好,如最近鄰域法、支持向量機(jī)在決策類應(yīng)用上表現(xiàn)良好,但是在解決排序類和估計(jì)類問題時(shí)表現(xiàn)一般。而有些數(shù)據(jù)挖掘算法的表現(xiàn)比較穩(wěn)定,如決策樹和邏輯回歸對三類問題都適用,但是在決策類問題上沒有在后兩類問題上表現(xiàn)好。
(1)決策樹
決策樹模仿個(gè)人在決策中的行為,將影響決策的相關(guān)因素從大到小排序,然后將大多數(shù)人的想法進(jìn)行歸納,得到這類人決策的流程。
圖1-5為一個(gè)假想的約會(huì)決策示意圖。

圖1-5 約會(huì)決策過程示意圖
其實(shí),我們不會(huì)有一個(gè)統(tǒng)一的決策標(biāo)準(zhǔn),也不會(huì)有一個(gè)一致的對考慮因素的排序。想象一下,在女生做約會(huì)決策的時(shí)候,她的親戚很難有意見一致的時(shí)候。而決策樹只是大家觀點(diǎn)的一個(gè)綜合,如果多數(shù)人認(rèn)為某個(gè)因素最重要,則該決策因素就放在最上面,之后的因素依此類推。
在商業(yè)數(shù)據(jù)挖掘中,決策樹依照輸入變量將樣本分成小的區(qū)格,以便找到讓區(qū)格內(nèi)被解釋變量最一致的情況。如圖1-6所示,深色的點(diǎn)代表升級(jí)投訴的客戶,主要集中在往來時(shí)長6~12個(gè)月中。在距本次投訴受理天數(shù)大于10天的區(qū)格內(nèi)的客戶占比為87%。如果投訴客戶具有這樣的屬性,就可以預(yù)測其升級(jí)投訴的可能性為87%。由于這種方法邏輯清晰、編程思路簡單、業(yè)務(wù)關(guān)系明了,因此受到數(shù)據(jù)分析師和業(yè)務(wù)人員的青睞。

圖1-6 決策樹變量情況
(2)邏輯回歸
假設(shè)我們開了一家婚戀網(wǎng)站,現(xiàn)在來了一個(gè)要注冊會(huì)員的男生,如何預(yù)測這個(gè)新來的男生是否會(huì)被女生同意約會(huì)呢?
我們可以將以往男生被約會(huì)的情況(打分)當(dāng)作一把尺子,分值越高,被約會(huì)的可能性越高。這個(gè)打分自然和廣大女生考慮的重要因素相關(guān),如魅力、性格等。這樣就不需要把新來的男生分別和已有的男生進(jìn)行比較了,只要把新來男生的信息代入打分公式,就可以計(jì)算出該男生被女生約會(huì)的概率。

圖1-7 男生魅力與性格的關(guān)系變量
邏輯回歸擬合了一條P(y=1)值等高線。該值越高,說明Y等于1的可能性越大,如圖1-7所示。
該模型通過對被解釋變量進(jìn)行邏輯轉(zhuǎn)換,再用轉(zhuǎn)換后的值與解釋變量構(gòu)造線性回歸模型。得到回歸模型后,通過已知的解釋變量預(yù)測客戶發(fā)生某種情況的可能性。如圖1-8所示,這是一個(gè)精準(zhǔn)營銷案例,業(yè)務(wù)人員希望找到使用手機(jī)證券可能性最高的一組客戶,然后對其進(jìn)行營銷。通過分析一段時(shí)間內(nèi)新增的手機(jī)證券用戶的特征和行為信息,得到圖1-8a所示的邏輯回歸模型。將該模型代入圖1-8b所示的計(jì)算公式,得到每個(gè)未訂購該業(yè)務(wù)客戶的訂購傾向,即圖1-8c所示的數(shù)據(jù)。業(yè)務(wù)人員通過這個(gè)名單,從預(yù)測概率較高的人群中挑選客戶進(jìn)行營銷。

圖1-8 解釋變量轉(zhuǎn)換后的情況
(3)神經(jīng)網(wǎng)絡(luò)
邏輯回歸做出的等高線經(jīng)常是不精確的。為了得到精確的預(yù)測結(jié)果,神經(jīng)網(wǎng)絡(luò)誕生。該方法省略了部分?jǐn)?shù)據(jù)探索的工作,只要將解釋因素放入模型,自然可以得到解釋因素和結(jié)果之間復(fù)雜的關(guān)系,如圖1-9所示。

圖1-9 性格和魅力的神經(jīng)網(wǎng)絡(luò)
在技術(shù)實(shí)現(xiàn)上,二分類變量神經(jīng)網(wǎng)絡(luò)在邏輯變換的基礎(chǔ)上提供了輸入變量自動(dòng)非線性化的解決方案。它是由大量簡單的基本元件組成的。每個(gè)元件的結(jié)構(gòu)和功能都比較簡單,但眾多的神經(jīng)元組合所產(chǎn)生的系統(tǒng)非常復(fù)雜。在統(tǒng)計(jì)上,它是一種智能的判別過程,對變量類型沒有太多要求,可以很好地識(shí)別事物的特征,構(gòu)建復(fù)雜的非線性特征等,如圖1-10所示。

圖1-10 數(shù)據(jù)變量類型識(shí)別特征
在實(shí)際運(yùn)用中,由于神經(jīng)網(wǎng)絡(luò)屬于黑盒模型,無法解釋其復(fù)雜公式背后的業(yè)務(wù)含義,因此該模型主要用于規(guī)律難以發(fā)現(xiàn)或者業(yè)務(wù)人員對規(guī)律還不了解的場景。例如銀行卡欺詐分析,由于建模的目的是及時(shí)發(fā)現(xiàn)可以交易的行為并進(jìn)行后續(xù)分析,在尋找可以交易的行為這一步驟中并不需要對其工作機(jī)理進(jìn)行細(xì)致的分析,只要確定識(shí)別的欺詐交易足夠準(zhǔn)即可,因此可以使用神經(jīng)網(wǎng)絡(luò)模型。在客戶信用評(píng)級(jí)分析中,需要構(gòu)建一個(gè)業(yè)務(wù)可解釋、方便業(yè)務(wù)人員和客戶溝通的模型,因此普遍選擇可解釋性強(qiáng)的邏輯回歸模型。而在建模過程中,神經(jīng)網(wǎng)絡(luò)方法主要有兩個(gè)用途:作為前期實(shí)驗(yàn)性模型,如果神經(jīng)網(wǎng)絡(luò)方法構(gòu)建的模型精度達(dá)不到模型設(shè)計(jì)要求的精度,則說明輸入變量的預(yù)測能力較低,不能滿足項(xiàng)目要求,需要將精力放在深挖可選變量上;作為金模型,神經(jīng)網(wǎng)絡(luò)可以達(dá)到分類精度的最高標(biāo)桿,如果邏輯回歸模型的預(yù)測精度和神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度差別較大,說明還有解釋變量和被解釋變量之間的非線性關(guān)系沒有被發(fā)現(xiàn),需要進(jìn)一步深挖規(guī)律。如果兩個(gè)模型預(yù)測精度接近到一定程度,說明邏輯回歸模型已經(jīng)體現(xiàn)了絕大部分規(guī)律,無須再深挖。
(4)組合法
該方法被稱為預(yù)測能力最強(qiáng)并且最穩(wěn)健的模型,其原理體現(xiàn)了“兼聽則明”的傳統(tǒng)觀點(diǎn)。該方法不求做出一個(gè)大而準(zhǔn)的模型,而是通過反復(fù)的自抽樣,構(gòu)造不同的分類模型。每個(gè)小模型可以都是決策樹或神經(jīng)網(wǎng)絡(luò),且使用的方法也可以不一樣。每個(gè)預(yù)測樣本的打分為所有模型預(yù)測的均值或眾數(shù),流程如圖1-11所示。

圖1-11 樣本模型的流程
組合法包括裝袋(Bagging)、提升(Boosting)和隨機(jī)森林。雖然每種模型都有其獨(dú)特性,但基本方法類似,首先基于學(xué)習(xí)數(shù)據(jù)集抽樣產(chǎn)生若干訓(xùn)練集,使用訓(xùn)練集產(chǎn)生若干分類器。之后每個(gè)分類器分別進(jìn)行預(yù)測,通過選舉多數(shù)判定樣本最終所屬分類,如圖1-12所示。

圖1-12 組合法的分類
組合法給出的結(jié)果是被預(yù)測變量的均值。統(tǒng)計(jì)學(xué)基本原理告訴我們,隨機(jī)變量均值分布的標(biāo)準(zhǔn)差比該隨機(jī)變量均值的標(biāo)準(zhǔn)差小很多,因此組合法的準(zhǔn)確率明顯高于組合中任何單個(gè)的分類器。而且對于較大的噪聲,組合法的表現(xiàn)不會(huì)很差,并且具有魯棒性,不容易過度擬合。但是組合法的可解釋性不強(qiáng),更適合于不需要解釋、只求準(zhǔn)確的業(yè)務(wù)情景。
(5)分類方法適用情景比較
在業(yè)務(wù)場景中,目標(biāo)不同,對數(shù)據(jù)建模的需求也不同。例如刑事偵測中,我們最關(guān)心的是鎖定的嫌疑犯中誰是罪犯,而不是對嫌疑犯是否犯罪做一個(gè)從大到小的排序。而在貸款違約風(fēng)險(xiǎn)評(píng)定中,由于我們很難有一個(gè)明確的違約概念,最終只能從統(tǒng)計(jì)上得到一個(gè)有意義的違約概率,因此需要對所有客戶的違約風(fēng)險(xiǎn)進(jìn)行排序。以下借鑒SAS公司對分類模型的分類,評(píng)價(jià)一下每個(gè)分類方法的適用性,如圖1-13所示。

圖1-13 SAS公司對分類模型的分類
·決策預(yù)測:預(yù)測模型使用輸入測量對每一個(gè)案例進(jìn)行最佳決策。該類模型適用的業(yè)務(wù)場景包括欺詐檢測、語音識(shí)別。
·等級(jí)預(yù)測:預(yù)測模型使用輸入測量優(yōu)化每個(gè)案例的排名等級(jí)。該類模型適用的業(yè)務(wù)場景包括風(fēng)險(xiǎn)分析、信用評(píng)分。
·估計(jì)預(yù)測:預(yù)測模型使用輸入測量優(yōu)化估計(jì)目標(biāo)值。該類模型適用的業(yè)務(wù)場景包括損失準(zhǔn)備金、收入預(yù)測。
表1-2是對分類模型適用性的比較。
表1-2 分類模型適用性比較

- MySQL高可用解決方案:從主從復(fù)制到InnoDB Cluster架構(gòu)
- 云數(shù)據(jù)中心基礎(chǔ)
- Google Visualization API Essentials
- 數(shù)據(jù)之巔:數(shù)據(jù)的本質(zhì)與未來
- Python金融大數(shù)據(jù)分析(第2版)
- Redis應(yīng)用實(shí)例
- 大數(shù)據(jù)時(shí)代下的智能轉(zhuǎn)型進(jìn)程精選(套裝共10冊)
- 新基建:數(shù)據(jù)中心創(chuàng)新之路
- Hadoop 3實(shí)戰(zhàn)指南
- 菜鳥學(xué)SPSS數(shù)據(jù)分析
- 一類智能優(yōu)化算法的改進(jìn)及應(yīng)用研究
- 掌中寶:電腦綜合應(yīng)用技巧
- Machine Learning for Mobile
- 數(shù)據(jù)產(chǎn)品經(jīng)理寶典:大數(shù)據(jù)時(shí)代如何創(chuàng)造卓越產(chǎn)品
- 實(shí)用預(yù)測分析