- Python機器學習算法與應用
- 鄧立國
- 818字
- 2020-11-23 14:57:14
2.4.5 主成分分析的計算
樣本觀測數據矩陣為:

(2.61)
(1)對原始數據進行標準化處理。

(2.62)
其中,
(2.63)
(2)計算樣本相關系數矩陣。

(2.64)
為方便,假定原始數據標準化后仍用X表示,則經標準化處理后的數據相關系數為:

(2.65)
(3)用雅克比方法求相關系數矩陣R的特征值和相應的特征向量
。
(4)選擇重要的主成分,并寫出主成分表達式。主成分分析可以得到p個主成分,但是由于各個主成分的方差是遞減的,包含的信息量也是遞減的,因此實際分析時一般不是選取p個主成分,而是根據各個主成分累計貢獻率的大小選取前k個主成分,這里貢獻率就是指某個主成分的方差占全部方差的比重,實際也就是某個特征值占全部特征值合計的比重,即

(2.66)
貢獻率越大,說明該主成分所包含的原始變量的信息越強。主成分個數k的選取主要根據主成分的累積貢獻率來決定,即一般要求累計貢獻率達到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數信息。
另外,在實際應用中,選擇了重要的主成分后,還要注意主成分實際含義的解釋。主成分分析中一個關鍵的問題是如何給主成分賦予新的意義,給出合理的解釋。一般而言,這個解釋是根據主成分表達式的系數結合定性分析來進行的。主成分是原來變量的線性組合,在這個線性組合中各變量的系數有大有小、有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量屬性的作用。線性組合中各變量系數的絕對值大者表明該主成分主要綜合了絕對值大的變量。有幾個變量系數大小相當時,應認為這一主成分是幾個變量的總和。這幾個變量綜合在一起應賦予怎樣的實際意義,則要結合具體實際問題和專業給出恰當的解釋,進而才能達到深刻分析的目的。
(5)計算主成分得分。根據標準化的原始數據,按照各個樣品分別代入主成分表達式,就可以得到各主成分下各個樣品的新數據,即為主成分得分,具體形式可如下:

(2.67)
(6)依據主成分得分的數據,可以進行進一步的統計分析。其中,常見的應用有主成分回歸、變量子集合的選擇、綜合評價等。
- Data Visualization with D3 4.x Cookbook(Second Edition)
- 自己動手寫搜索引擎
- Learning PostgreSQL
- 兩周自制腳本語言
- arc42 by Example
- Practical Windows Forensics
- Python Network Programming Cookbook(Second Edition)
- PhpStorm Cookbook
- PHP 7+MySQL 8動態網站開發從入門到精通(視頻教學版)
- Hands-On Full Stack Development with Go
- Learning YARN
- Visual Basic程序設計(第三版)
- 深入實踐DDD:以DSL驅動復雜軟件開發
- Clojure Polymorphism
- DB2SQL性能調優秘笈