- Python機器學習算法與應用
- 鄧立國
- 700字
- 2020-11-23 14:57:13
2.4.1 主成分分析的原理及模型
1.主成分分析原理
主成分分析采取一種數學降維的方法,找出幾個綜合變量來代替原來眾多的變量,使這些綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關。這種將把多個變量化為少數幾個互相無關的綜合變量的統計分析方法就叫作主成分分析或主分量分析。
主成分分析所要做的就是設法將原來眾多具有一定相關性的變量重新組合為一組新的相互無關的綜合變量來代替原來的變量。通常,數學上的處理方法就是將原來的變量進行線性組合,作為新的綜合變量,但是這種組合如果不加以限制,就可以有很多,應該如何選擇呢?如果將選取的第一個線性組合(第一個綜合變量)記為F1,自然希望它盡可能多地反映原來變量的信息,這里“信息”用方差來測量,即希望Var(F1)越大,表示F1包含的信息越多。在所有的線性組合中所選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個變量的信息,再考慮選取F2(第二個線性組合)。為了有效地反映原來的信息,F1已有的信息不需要出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,稱F2為第二主成分,以此類推,可以構造出第三、四、…p個主成分。
2.主成分分析的數學模型
對于一個樣本數據,觀測p個變量x1,x2,…,xp,n個樣品的數據矩陣為:

(2.42)
其中:
主成分分析就是將p個觀測變量綜合成為p個新的變量(綜合變量),即

(2.43)
簡寫為:

(2.44)

要求模型滿足以下條件:
①和
互不相關(i≠j, i,j=1,2,…,P);
②的方差大于
的方差,大于
的方差;
③。
于是,稱為第一主成分,
為第二主成分,以此類推,有第p個主成分。主成分又叫主分量。這里aij稱為主成分系數。
上述模型可用矩陣表示為:
其中F=AX
其中:

(2.45)

(2.46)
A稱為主成分系數矩陣。
推薦閱讀
- The Modern C++ Challenge
- PostgreSQL Cookbook
- Network Automation Cookbook
- C#程序設計教程
- INSTANT Mercurial SCM Essentials How-to
- Apex Design Patterns
- Building Wireless Sensor Networks Using Arduino
- Python Interviews
- Arduino計算機視覺編程
- 智能手機故障檢測與維修從入門到精通
- UML2面向對象分析與設計(第2版)
- Orchestrating Docker
- iOS開發項目化入門教程
- Android移動應用項目化教程
- Java程序設計基礎教程