官术网_书友最值得收藏!

2.4.5 主成分分析的計算

樣本觀測數據矩陣為:

(2.61)

(1)對原始數據進行標準化處理。

(2.62)

其中,ZQ-185-009_inline_0131

(2.63)

(2)計算樣本相關系數矩陣。

(2.64)

為方便,假定原始數據標準化后仍用X表示,則經標準化處理后的數據相關系數為:

(2.65)

(3)用雅克比方法求相關系數矩陣R的特征值ZQ-185-009_inline_0137和相應的特征向量ZQ-185-009_inline_0138

(4)選擇重要的主成分,并寫出主成分表達式。主成分分析可以得到p個主成分,但是由于各個主成分的方差是遞減的,包含的信息量也是遞減的,因此實際分析時一般不是選取p個主成分,而是根據各個主成分累計貢獻率的大小選取前k個主成分,這里貢獻率就是指某個主成分的方差占全部方差的比重,實際也就是某個特征值占全部特征值合計的比重,即

(2.66)

貢獻率越大,說明該主成分所包含的原始變量的信息越強。主成分個數k的選取主要根據主成分的累積貢獻率來決定,即一般要求累計貢獻率達到85%以上,這樣才能保證綜合變量能包括原始變量的絕大多數信息。

另外,在實際應用中,選擇了重要的主成分后,還要注意主成分實際含義的解釋。主成分分析中一個關鍵的問題是如何給主成分賦予新的意義,給出合理的解釋。一般而言,這個解釋是根據主成分表達式的系數結合定性分析來進行的。主成分是原來變量的線性組合,在這個線性組合中各變量的系數有大有小、有正有負,有的大小相當,因而不能簡單地認為這個主成分是某個原變量屬性的作用。線性組合中各變量系數的絕對值大者表明該主成分主要綜合了絕對值大的變量。有幾個變量系數大小相當時,應認為這一主成分是幾個變量的總和。這幾個變量綜合在一起應賦予怎樣的實際意義,則要結合具體實際問題和專業給出恰當的解釋,進而才能達到深刻分析的目的。

(5)計算主成分得分。根據標準化的原始數據,按照各個樣品分別代入主成分表達式,就可以得到各主成分下各個樣品的新數據,即為主成分得分,具體形式可如下:

(2.67)

(6)依據主成分得分的數據,可以進行進一步的統計分析。其中,常見的應用有主成分回歸、變量子集合的選擇、綜合評價等。

主站蜘蛛池模板: 读书| 永吉县| 东台市| 柳河县| 清镇市| 绥阳县| 万安县| 隆尧县| 元朗区| 四川省| 绥阳县| 定南县| 繁峙县| 普格县| 武义县| 阿克陶县| 双桥区| 平原县| 岳池县| 康定县| 靖西县| 民县| 谷城县| 托克逊县| 英德市| 革吉县| 黄陵县| 永仁县| 镶黄旗| 福州市| 额济纳旗| 新巴尔虎左旗| 和平县| 东安县| 吴川市| 芜湖市| 千阳县| 商南县| 灵宝市| 仁化县| 龙海市|