官术网_书友最值得收藏!

2.7 主成分分析

另一種聚類方法是,可以通過(guò)主成分分析(principal component analysis,PCA)來(lái)了解數(shù)據(jù)結(jié)構(gòu)。[1]這種方法將數(shù)據(jù)的m個(gè)特征轉(zhuǎn)化為m個(gè)變量,作為因子或者主成分,因此:

·任何特征觀測(cè)值都是因子的個(gè)線性組合;

·m個(gè)因子之間互不相關(guān)。

PCA在正態(tài)分布的數(shù)據(jù)中效果最佳。第一個(gè)因子在最大程度上包含數(shù)據(jù)的變異性,其他隨后的因子在與前面因子不相關(guān)的前提下,盡可能反映剩余的變異性。特定因子的數(shù)量被稱為該特定觀測(cè)值的因子得分(factor score)。

PCA常用于利率變化的案例中(例如一個(gè)數(shù)據(jù)科學(xué)家通過(guò)PCA研究利率變化對(duì)消費(fèi)者行為的影響)。表2-9展示了前3個(gè)因子,它們通過(guò)主成分分析獲得,主成分分析使用了12年的每日利率變化數(shù)據(jù),結(jié)合1、2、3、4、5、7、10和30年償還期限。[2]表中每列的數(shù)字為因子載荷(factor loadings),其平方和為1。在第一個(gè)因子(principal component one,PC1)中所有利率的變化方向是一致的。如果我們將此因子增加10個(gè)基點(diǎn),則1年期利率增加2.16個(gè)基點(diǎn)(或者增加0.021 6%),2年期利率則增加3.31個(gè)基點(diǎn),依此類推。如果我們將PC1降低20個(gè)基點(diǎn),則1年期利率下降4.32個(gè)基點(diǎn),2年期利率下降6.62個(gè)基點(diǎn),依此類推。

表2-9 因子載荷反映了利率變化的主成分

PC2與PC1不同,其前4個(gè)利率變化方向一致而后4個(gè)利率變化方向相反,這說(shuō)明了一個(gè)隨著斜率變化而反轉(zhuǎn)的利率變化結(jié)構(gòu)。在PC3中短期和長(zhǎng)期的變化方向一致,而中期則向相反的方向變化。

因子的重要性測(cè)量標(biāo)準(zhǔn)為所有觀測(cè)值的因子得分的標(biāo)準(zhǔn)差。表2-10展示了在利率案例中前3個(gè)因子的因子得分標(biāo)準(zhǔn)差,在這個(gè)例子中8個(gè)因子得分的方差為338.8[3],因此對(duì)第一個(gè)(最重要的)因子而言,其解釋整體方差的比例為:

對(duì)前兩個(gè)因子而言,其解釋整體方差的比例為:

表2-10 利率因子得分的標(biāo)準(zhǔn)差

這說(shuō)明了將8個(gè)特征定義為兩個(gè)變量(PC1和PC2)可以解釋絕大部分?jǐn)?shù)據(jù)的變異性,這正是PCA法的目的——嘗試用少量的變量來(lái)概括數(shù)據(jù)的結(jié)構(gòu)。

我們用第2.5節(jié)提到的國(guó)家風(fēng)險(xiǎn)評(píng)估來(lái)作為另一個(gè)PCA的例子。數(shù)據(jù)的因子和因子得分被展示在表2-11和表2-12中,這揭示了數(shù)據(jù)的一些有趣特征:第一個(gè)因子解釋了64%的變異性,且清廉指數(shù)、和平指數(shù)和法律風(fēng)險(xiǎn)指數(shù)比重相近(記住,低的和平指數(shù)是好的)。第二個(gè)因子包含了另外24%的數(shù)據(jù)變異性,在GDP增長(zhǎng)率特征上的比重最高,可以看出GDP增長(zhǎng)率提供了與其他3個(gè)特征非常不同的信息(在表2-11的解釋中,我們可以在不改變模型的情況下,改變同一列中所有因子載荷的符號(hào),這是因?yàn)樵谝粋€(gè)觀測(cè)值中的一個(gè)因子的單位量可以為正也可以為負(fù)。舉例來(lái)說(shuō),我們不應(yīng)該曲解在PC2中GDP增長(zhǎng)率的因子載荷值為負(fù)數(shù),因此可以修改PC2中所有因子的符號(hào)而無(wú)須改變模型)。

表2-11 國(guó)家風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)的主成分因子載荷值(具體數(shù)據(jù)請(qǐng)參考Excel PCA文件)

表2-12 國(guó)家風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)的因子得分標(biāo)準(zhǔn)差(具體數(shù)據(jù)請(qǐng)參考Excel PCA文件)

第三個(gè)因子包括了數(shù)據(jù)10%的變異性,其中和平指數(shù)比重較高,表明該指數(shù)提供了相較清廉指數(shù)和法律風(fēng)險(xiǎn)指數(shù)而言的額外信息。第四個(gè)因子重要性較低,包括了2%的變異性。PCA驗(yàn)證了圖2-4的結(jié)論:清廉指數(shù)和法律風(fēng)險(xiǎn)指數(shù)提供了類似的信息。

PCA有時(shí)也用于監(jiān)督學(xué)習(xí),通過(guò)該方法,我們用較少的主成分來(lái)替代一系列冗長(zhǎng)的特征,這些加工過(guò)的特征被選來(lái)解釋預(yù)測(cè)中數(shù)據(jù)的絕大部分變異性,并且它們有著不相關(guān)的良好特性。

最后需要提醒的是,當(dāng)使用聚類分析或PCA方法時(shí),我們并不試圖預(yù)測(cè)任何值,僅僅是了解數(shù)據(jù)的結(jié)構(gòu)。在我們的例子中,這些特征并不保證能預(yù)測(cè)國(guó)家風(fēng)險(xiǎn)情況(例如,我們不會(huì)嘗試將這些特征用于研究不同國(guó)家投資者的損失,這與我們?cè)诒O(jiān)督學(xué)習(xí)中的做法很不同)。

小結(jié)

無(wú)監(jiān)督學(xué)習(xí)的核心是理解數(shù)據(jù)的變化規(guī)律。聚類是一種很典型的應(yīng)用。企業(yè)用無(wú)監(jiān)督學(xué)習(xí)來(lái)理解不同類型的消費(fèi)者,從而更有效地與消費(fèi)者進(jìn)行溝通。

特征縮放通常是聚類分析的先決條件,如果沒(méi)有特征縮放,特征對(duì)聚類分析的影響將取決于其數(shù)值規(guī)模。有兩種方法可以進(jìn)行特征縮放:一種是Z評(píng)分標(biāo)準(zhǔn)化,在這種方法中均值為0,標(biāo)準(zhǔn)差為1;另一種是極值縮放,所有特征取值在0到之間。

聚類算法需要衡量觀測(cè)值之間的距離。運(yùn)用最廣泛的衡量方式為歐式距離,即為觀測(cè)值之間的距離平方和。聚類的中心由各觀測(cè)值之間的特征取值的平均數(shù)得出。最受歡迎的聚類算法為k-均值算法,在k值一定時(shí)對(duì)慣性矩進(jìn)行最小化,這里的慣性矩為聚類內(nèi)觀測(cè)值到該子聚類中心之間距離平方的總和。

選擇最佳的k值往往不是那么容易的。第一種方法是通過(guò)肘部法,不斷增加k值,直到慣性矩的變化率相對(duì)下降;第二種方法是通過(guò)輪廓法,比較兩個(gè)同一子聚類中的觀測(cè)值之間的距離與另外一個(gè)最靠近的子聚類的平均距離;第三種方法是計(jì)算間隔統(tǒng)計(jì)量,即將已被聚類完畢的觀測(cè)值和隨機(jī)產(chǎn)生的觀測(cè)值做比較。

當(dāng)特征的數(shù)據(jù)量增加時(shí),歐式距離增加,這樣會(huì)導(dǎo)致維度災(zāi)難,并且會(huì)增加k-均值算法的難度。在這種情況下,比較理想的做法是改變距離衡量方法,使得當(dāng)特征增加時(shí)距離維持在某一個(gè)范圍內(nèi)。

有一系列的方法可以代替k-均值算法。其中一個(gè)是凝聚層次聚類,從每一個(gè)觀測(cè)值為一個(gè)子聚類開(kāi)始,然后我們通過(guò)合并距離最近的子聚類,逐漸減少子聚類的個(gè)數(shù);基于分布的聚類方法則是假設(shè)一組數(shù)據(jù)的分布為幾個(gè)正態(tài)分布(或其他分布)方式的混合,然后測(cè)算這些分布的參數(shù)。基于密度的聚類方法的核心則是尋找數(shù)據(jù)密集的區(qū)域,而無(wú)須涉及其聚類中心。

主成分分析是機(jī)器學(xué)習(xí)的重要方法之一。它涉及將大量的特征通過(guò)其中少量特征來(lái)捕捉大部分的變異性。這些加工后的特征之間無(wú)相關(guān)性。

練習(xí)題

1.為什么在無(wú)監(jiān)督學(xué)習(xí)中特征縮放如此重要?請(qǐng)列舉出兩種特征縮放方法,這兩種方法的優(yōu)勢(shì)和劣勢(shì)分別是什么?

2.假設(shè)有3個(gè)特征:A、B和C,一個(gè)觀測(cè)值對(duì)應(yīng)3個(gè)特征的取值為2、3和4,另一個(gè)觀測(cè)值對(duì)應(yīng)3個(gè)特征的取值為6、8和7,請(qǐng)問(wèn)這兩個(gè)觀測(cè)值的距離是多少?

3.上題中的兩個(gè)觀測(cè)值的聚類中心是什么?

4.請(qǐng)介紹k-均值算法的主要步驟。

5.請(qǐng)分別介紹肘部法和輪廓法是如何決定k的取值的。

6.為什么隨著特征的數(shù)量增多,觀測(cè)值之間的距離會(huì)增加?假設(shè)你從10個(gè)特征開(kāi)始,然后由于失誤添加了與之前10個(gè)特征一致的另外10個(gè)特征,這樣做對(duì)兩個(gè)觀測(cè)值之間的距離會(huì)有什么影響?

7.凝聚層次聚類法是如何運(yùn)行的?該方法與k-均值算法相比,優(yōu)勢(shì)和劣勢(shì)分別有哪些?

8.請(qǐng)介紹基于分布的聚類和基于密度的聚類。

9.主成分分析法在哪些條件下最利于理解數(shù)據(jù)?

10.請(qǐng)介紹因子載荷和因子得分。

作業(yè)題

1.請(qǐng)通過(guò)www-2.rotman.utoronto.ca/~hull)上的數(shù)據(jù)來(lái)計(jì)算在縮放之前14個(gè)高風(fēng)險(xiǎn)國(guó)家的子聚類中心(見(jiàn)表2-5),然后對(duì)聚類中心進(jìn)行縮放,檢驗(yàn)?zāi)愕拇鸢甘欠窈捅?-8一致。

2.運(yùn)用兩個(gè)因子的主成分分析的結(jié)果來(lái)判斷國(guó)家風(fēng)險(xiǎn)。分別運(yùn)用縮放和未縮放的數(shù)據(jù)進(jìn)行分析。

3.Python練習(xí)題:Python腳本可以在www-2.rotman.utoronto.ca/~hull)中找到。

(a)運(yùn)用k-均值算法進(jìn)行計(jì)算,當(dāng)k=3、特征數(shù)量為4時(shí)(清廉指數(shù)、和平指數(shù)、法律風(fēng)險(xiǎn)指數(shù)和GDP增長(zhǎng)率),找出高風(fēng)險(xiǎn)聚類的國(guó)家,并與當(dāng)特征數(shù)量為3時(shí)的結(jié)果進(jìn)行比較(結(jié)果見(jiàn)表2-5)。

(b)運(yùn)用凝聚層次聚類法來(lái)歸類出三個(gè)子聚類,特征為和平指數(shù)、法律風(fēng)險(xiǎn)指數(shù)及GDP增長(zhǎng)率。比較其與k-均值算法所得出的結(jié)論(結(jié)論見(jiàn)表2-5)。Python包、AgglomerativeClustering用于凝聚層次聚類法,可以通過(guò)sklearn.cluter進(jìn)行導(dǎo)入。請(qǐng)嘗試用不同的方法來(lái)判斷最近距離點(diǎn)(可參考Python包中的“l(fā)inkage”)。

[1] 卡爾·皮爾遜(Karl Pearson)早在1901 年便提出了PCA :K. Pearson (1901),“ On Lines and Planes of Closet Fit to System on Points in Space,” Philosophical Magazine, 2(11): 559-572。

[2] 約翰·赫爾. 期權(quán)、期貨及其他衍生產(chǎn)品(原書(shū)第10 版)[M]. 王勇,索吾林,譯. 北京: 機(jī)械工業(yè)出版社,2018 :400. 數(shù)據(jù)見(jiàn)www-2.rotman.utoronto.ca/~hull/ofod 上的主成分分析表。

[3] 原書(shū)為388.8,疑有誤,更正為此。——譯者注

主站蜘蛛池模板: 苏尼特右旗| 巴林左旗| 齐河县| 拜城县| 商丘市| 北海市| 慈利县| 当阳市| 大丰市| 乐山市| 淮滨县| 花莲市| 株洲县| 金湖县| 裕民县| 沙洋县| 特克斯县| 郧西县| 都匀市| 开原市| 阳信县| 凤山县| 平凉市| 莱西市| 平顺县| 平湖市| 山阴县| 花莲市| 扶风县| 哈巴河县| 若尔盖县| 衡东县| SHOW| 巫溪县| 长垣县| 泽库县| 江西省| 从江县| 新晃| 黄陵县| 西林县|