全部游戏免费(试玩)233乐园

書名： Python機器學習算法與應用
作者名：鄧立國
本章字數： 700字
更新時間： 2020-11-23 14:57:13

2.4.1　主成分分析的原理及模型

1．主成分分析原理

主成分分析采取一種數學降維的方法，找出幾個綜合變量來代替原來眾多的變量，使這些綜合變量能盡可能地代表原來變量的信息量，而且彼此之間互不相關。這種將把多個變量化為少數幾個互相無關的綜合變量的統計分析方法就叫作主成分分析或主分量分析。

主成分分析所要做的就是設法將原來眾多具有一定相關性的變量重新組合為一組新的相互無關的綜合變量來代替原來的變量。通常，數學上的處理方法就是將原來的變量進行線性組合，作為新的綜合變量，但是這種組合如果不加以限制，就可以有很多，應該如何選擇呢？如果將選取的第一個線性組合（第一個綜合變量）記為F₁，自然希望它盡可能多地反映原來變量的信息，這里“信息”用方差來測量，即希望Var(F₁)越大，表示F₁包含的信息越多。在所有的線性組合中所選取的F₁應該是方差最大的，故稱F₁為第一主成分。如果第一主成分不足以代表原來p個變量的信息，再考慮選取F₂（第二個線性組合）。為了有效地反映原來的信息，F₁已有的信息不需要出現在F₂中，用數學語言表達就是要求Cov(F₁, F₂)=0，稱F₂為第二主成分，以此類推，可以構造出第三、四、…p個主成分。