- 機器學(xué)習(xí)及其應(yīng)用
- 汪榮貴等編著
- 7139字
- 2022-01-14 17:06:35
3.1 線性模型
如果機器學(xué)習(xí)模型的輸出量通過樣本特征與模型參數(shù)的線性組合計算獲得,則稱該模型為線性模型。線性模型結(jié)構(gòu)中只有乘法和加法運算,是一種非常簡單的機器學(xué)習(xí)模型。對于給定帶標(biāo)簽訓(xùn)練樣本,通過監(jiān)督學(xué)習(xí)訓(xùn)練構(gòu)造線性模型的關(guān)鍵技術(shù)在于如何算出合適的模型參數(shù)值,即線性組合系數(shù)或權(quán)重,使得訓(xùn)練樣本的模型輸出值能較好地擬合樣本標(biāo)簽。最常用的方法是通過優(yōu)化輸出值與標(biāo)記值之間的誤差來調(diào)整模型參數(shù),使得誤差越小越好。本節(jié)主要介紹如何通過訓(xùn)練樣本自動構(gòu)造出適當(dāng)?shù)木€性模型以完成回歸、分類等機器學(xué)習(xí)任務(wù)。
3.1.1 模型結(jié)構(gòu)
在機器學(xué)習(xí)領(lǐng)域,線性模型是一類由線性組合方式構(gòu)成的預(yù)測性模型的統(tǒng)稱,這類模型在機器學(xué)習(xí)領(lǐng)域有著非常廣泛的應(yīng)用,其基本形式如下
其中,μi表示第i個變量;ai表示μi所對應(yīng)的權(quán)重參數(shù);參數(shù)b稱為偏置項。
當(dāng)b≠0時,稱式(3-1)為非齊次線性模型;當(dāng)b=0時,可將式(3-1)簡化為
并稱式(3-2)為齊次線性模型。
顯然,齊次線性模型是非齊次線性模型在偏置項b=0時的一種特殊形式。事實上,對于式(3-2)表示的齊次線性模型,若令其中的變量μn恒等于1,則該模型就變成一個以an為偏置項的非齊次線性模型。由此可見,在一定條件下,齊次線性模型與非齊次線性模型可以相互轉(zhuǎn)化。因此,基于齊次線性模型的很多結(jié)論可以直接推廣到非齊次線性模型,反之亦然。在不失一般性的前提下,將根據(jù)實際需要或表述方便,靈活地采用齊次線性模型或非齊次線性模型作為線性模型的表示形式。
可將線性模型式(3-1)表示為如下向量形式
其中,a=(a1,a2,…,an)T表示權(quán)重向量;μ=(μ1,μ2,…,μn)T表示變量向量。
在機器學(xué)習(xí)領(lǐng)域,通常將樣本數(shù)據(jù)表示為表征向量或特征向量形式,并默認樣本數(shù)據(jù)由特征向量形式表達。具體地說,對于任意給定的一個樣本X,可將其表示成特征向量(x1,x2,…,xm)T,即X=(x1,x2,…,xm)T,每個樣本數(shù)據(jù)對應(yīng)各自的特征向量。此時可將線性模型表示為樣本特征向量與權(quán)重向量的線性組合,即有
其中,w=(w1,w2,…,wm)T為權(quán)重向量;wi表示樣本X的第i個特征xi對模型輸出的影響程度。wi值越大,則表示特征xi對線性模型f(X)輸出值的影響就越大。
對于給定的機器學(xué)習(xí)任務(wù),獲得一個滿足任務(wù)需求的線性模型主要是通過調(diào)整模型的權(quán)重參數(shù)實現(xiàn)的,即確定樣本屬性或特征數(shù)據(jù)與模型輸出之間滿足何種線性關(guān)系。對模型參數(shù)的調(diào)整一般是通過對訓(xùn)練樣本數(shù)據(jù)的學(xué)習(xí)來實現(xiàn)的。有時模型自變量與參數(shù)之間并不滿足線性關(guān)系,需要通過某些數(shù)學(xué)技巧將原始模型轉(zhuǎn)化為適當(dāng)線性模型以實現(xiàn)對問題的求解。
3.1.2 線性回歸
回歸是機器學(xué)習(xí)的一項重要任務(wù)。所謂回歸,就是通過帶標(biāo)簽樣本訓(xùn)練構(gòu)造適當(dāng)模型,并通過該模型算出新樣本的預(yù)測值。基于線性模型的回歸學(xué)習(xí)任務(wù)通常稱為線性回歸,相應(yīng)的線性模型稱為線性回歸模型。可以使用線性回歸模型解決很多預(yù)測問題,不過如何構(gòu)造適當(dāng)?shù)木€性模型是一個需要仔細考慮的問題。對于任意一個給定的樣本ξ,令
x1=ψ1(ξ),x2=ψ2(ξ),…,xm=ψm(ξ)
為樣本ξ的屬性提取函數(shù),則可將ξ映射成一個m元特征向量X,即
X=X(ξ)=(x1,x2,…,xm)T
由此可將線性回歸模型的初始模型表示為如下的線性組合形式
其中,w=(w1,w2,…,wm)T為參數(shù)向量。
建立線性回歸模型的目標(biāo)是希望模型輸出的預(yù)測值能夠較好地符合實際數(shù)據(jù)。對于不同模型參數(shù)向量w,線性模型的擬合效果會有所差異,需要根據(jù)樣本數(shù)據(jù)計算出合適的模型參數(shù),使得模型預(yù)測效果達到最優(yōu)。因此,線性回歸模型的構(gòu)造其實是一個優(yōu)化問題,需要建立一個適當(dāng)?shù)哪繕?biāo)函數(shù)或損失函數(shù)作為優(yōu)化計算的基本依據(jù)。
對于給定帶標(biāo)簽訓(xùn)練樣本X,設(shè)其標(biāo)簽值為y,則希望線性回歸模型關(guān)于該訓(xùn)練樣本的預(yù)測輸出f(X)與y能夠盡可能接近。通常采用平方誤差來度量f(X)和y的接近程度,即
其中,e表示單個訓(xùn)練樣本X的誤差。
在機器學(xué)習(xí)的模型訓(xùn)練中,通常使用多個訓(xùn)練樣本,可將所有訓(xùn)練樣本所產(chǎn)生平方誤差的總和看成是模型的總誤差。因此,對于任意給定的n個訓(xùn)練樣本X1,X2,…,Xn,令其標(biāo)簽值分別為y1,y2,…,yn,可將對線性回歸模型f(X)進行優(yōu)化計算的目標(biāo)函數(shù)定義為
令訓(xùn)練樣本集的特征矩陣為A=(X1,X2,…,Xn)T=(xij)n×m,相應(yīng)的訓(xùn)練樣本標(biāo)簽值向量為y=(y1,y2,…,yn)T,則可將上述損失函數(shù)轉(zhuǎn)化為
因此,線性回歸模型的構(gòu)造就轉(zhuǎn)化為如下最優(yōu)化求解問題
令J(w)對參數(shù)向量w各分量的偏導(dǎo)數(shù)為0,即
則由AT(y-Aw)=0解得
可通過式(3-9)計算參數(shù)向量w的取值,并將其代入f(X)=wTX獲得所求線性回歸模型。
【例題3.1】某企業(yè)某商品的月廣告費用與月銷售量數(shù)據(jù)如表3-1所示,試通過線性回歸模型分析預(yù)測這兩組數(shù)據(jù)之間的關(guān)系。
【解】首先,將表3-1中的樣本數(shù)據(jù)可視化,即將表中數(shù)據(jù)以點的形式展現(xiàn)在二維坐標(biāo)系中,如圖3-1所示。通過考察這些點的位置分布,不難發(fā)現(xiàn)它們基本上成直線排列。為此可用直線方程表示月廣告費si與月銷售量ti之間的關(guān)系,即有:f(s)=as+b。
表3-1 月廣告費與月銷售量數(shù)據(jù)
令特征提取函數(shù)為x1=ψ1(s)=s,x2=ψ2(s)=1,則樣本si可表示為特征向量(si,1)T,令y=t,w=(a,b)T,則可將表3-1中的si和ti值代入公式w=(ATA)-1ATy中,算出w=(0.968,0.191)T,得到所求線性回歸模型f(s)=0.968s+0.191。圖3-2展示了該模型對數(shù)據(jù)的擬合效果,可用該模型就廣告費與銷售量之間的關(guān)系做短期預(yù)測。例如,已知即將投入的廣告費用,可大致預(yù)測出相應(yīng)的銷售量。□
圖3-1 廣告費與銷售量數(shù)據(jù)
圖3-2 線性回歸模型
由以上分析可知,線性回歸模型的初始模型是若干以樣本特征提取函數(shù)為基函數(shù)的線性組合,在構(gòu)造線性回歸模型完成機器學(xué)習(xí)回歸任務(wù)時,首先必須通過一定的先驗經(jīng)驗或?qū)I(yè)知識構(gòu)造出若干特征提取函數(shù),然后通過最小化損失函數(shù)的優(yōu)化計算實現(xiàn)對線性回歸模型參數(shù)向量w的求解,獲得性能提升的線性回歸模型。
需要注意的是,上述線性模型回歸參數(shù)的求解方法只有在ATA是可逆矩陣的條件下才能獲得唯一解。然而,當(dāng)矩陣A的行向量之間存在一定的線性相關(guān)性時,即不同樣本之間的屬性標(biāo)記值存在一定的線性相關(guān)性時,就會使得矩陣ATA不可逆。自變量之間存在線性相關(guān)情況,在統(tǒng)計學(xué)中稱為多重共線現(xiàn)象。
事實上,自變量之間的線性相關(guān)不僅會造成矩陣ATA不可逆,而且在ATA可逆的情況下,也有可能導(dǎo)致對參數(shù)向量w的計算的不穩(wěn)定,即樣本數(shù)據(jù)的微小變化會導(dǎo)致參數(shù)w計算結(jié)果的巨大波動。此時,使用不同訓(xùn)練樣本獲得的回歸模型之間會產(chǎn)生很大的差異,使得回歸模型缺少泛化能力。因此,需要對上述線性回歸參數(shù)的求解方法進行改進,從而有效解決多重共線現(xiàn)象帶來的問題,下面介紹一種名為嶺回歸的改進方法。
嶺回歸方法的基本思想是:既然共線現(xiàn)象會導(dǎo)致參數(shù)估計值變化非常大,那么就在現(xiàn)有線性回歸模型損失函數(shù)上增加一個針對w的范數(shù)懲罰函數(shù),通過對目標(biāo)函數(shù)做正則化處理,將參數(shù)向量w中所有參數(shù)的取值壓縮到一個相對較小的范圍,即要求w中所有參數(shù)的取值不能過大,由此可以得到如下用于嶺回歸的損失函數(shù)
其中,λ≥0稱為正則化參數(shù)。
當(dāng)λ的取值較大時,懲罰項λwTw就會對損失函數(shù)的最小化產(chǎn)生一定的干擾,此時優(yōu)化算法就會對回歸模型參數(shù)w賦予較小的取值以消除這種干擾。因此,正則化參數(shù)λ的較大取值會對模型參數(shù)w的取值產(chǎn)生一定的抑制作用。λ的值越大,w的取值就會越小,共線性的影響也越小,當(dāng)λ=0時,即退化為傳統(tǒng)線性回歸方法。
令J(w)對參數(shù)w的偏導(dǎo)數(shù)為0,可得w=(ATA+λI)-1ATy。其中,I為m階單位矩陣。這樣即使ATA本身不是可逆矩陣,加上λI也可使ATA+λI組成可逆矩陣。
嶺回歸方法采用參數(shù)向量w的L2范數(shù)作為懲罰函數(shù),具有便于計算和數(shù)學(xué)分析的優(yōu)點。然而當(dāng)參數(shù)個數(shù)較多時,需要將重要參數(shù)賦予較大的值,不太重要的參數(shù)賦予較少的值,甚至對某些參數(shù)賦零值。此時需用其他范數(shù)作為懲罰函數(shù)對目標(biāo)函數(shù)做正則化處理。例如,使用參數(shù)向量的L1范數(shù)作為懲罰函數(shù),可以得到Lasso回歸及相關(guān)算法,這里不再贅述。
3.1.3 線性分類
日常生活和工作中經(jīng)常會遇到一些分類問題,例如,有時需要將產(chǎn)品按質(zhì)量分為優(yōu)等品、合格品和次品,將公司客戶分為貴賓客戶和普通客戶等。可以使用有監(jiān)督的機器學(xué)習(xí)方式實現(xiàn)分類任務(wù),即根據(jù)有標(biāo)注樣本數(shù)據(jù)訓(xùn)練出相應(yīng)的分類模型,然后根據(jù)分類模型實現(xiàn)對新樣本的自動分類。顯然,如果回歸模型的預(yù)測輸出是離散值而不是連續(xù)值,則機器學(xué)習(xí)的回歸預(yù)測事實上就實現(xiàn)了分類效果。因此,只要將線性回歸模型輸出的連續(xù)值進行離散化,就可以將線性回歸模型改造成相應(yīng)的線性分類模型。所謂線性分類模型,就是基于線性模型的分類模型,通常亦稱為線性分類器。使用線性回歸模型構(gòu)造線性分類器的關(guān)鍵在于如何將線性回歸模型輸出的連續(xù)性取值進行離散化。
最直接的想法是將線性回歸模型輸出值的取值范圍劃分為有限個不相交區(qū)間,每個區(qū)間表示一個類別,由此實現(xiàn)模型連續(xù)值輸出的離散化。這相當(dāng)于使用躍階函數(shù)對線性回歸模型的輸出值進行激活函數(shù)映射。然而,躍階函數(shù)為不連續(xù)函數(shù),直接在模型中引入躍階函數(shù)不便于進行數(shù)學(xué)分析。因此,需要設(shè)計一些具有良好數(shù)學(xué)性質(zhì)的激活函數(shù)來替代躍階函數(shù),以實現(xiàn)對連續(xù)值的離散化。下面以二值分類任務(wù)為例,介紹激活函數(shù)及分類模型的設(shè)計方法。
對于任意給定的一個線性回歸模型f(X)=wTX,其中X=(x1,x2,…,xm)T為待分類樣本,二值分類任務(wù)的目標(biāo)是將模型預(yù)測值f(X)劃分為0/1兩個值,即將樣本X劃分為正例或反例這兩種類型之一。圖3-3表示使用該線性回歸模型完成二值分類任務(wù)的基本流程,其中激活函數(shù)g(f(X))的設(shè)計是實現(xiàn)二值分類任務(wù)的關(guān)鍵要點。
圖3-3 基于線性回歸模型的二值分類
顯然,式(3-11)所表示的單位階躍函數(shù)g(f(X))可以獲得比較理想的二值分類效果,即當(dāng)預(yù)測值f(X)大于零時將樣本X劃分為正例,當(dāng)f(X)小于零時將樣本X劃分為反例,f(X)為零時則將樣本X隨機劃分為正例或反例中的任意一類。
然而,函數(shù)g(f(X))在跳躍點瞬間從0跳躍到1,這個瞬間跳躍過程有時在數(shù)學(xué)上很難處理,例如在優(yōu)化計算時不適合進行求導(dǎo)運算。因此,希望能夠使用一種與單位階躍函數(shù)類似且具有良好單調(diào)可微性質(zhì)的函數(shù)作為激活函數(shù)。
圖3-4表示的Sigmoid函數(shù)滿足上述條件且在數(shù)學(xué)上更易處理,使用Sigmoid函數(shù)作為線性回歸模型激活函數(shù)的回歸方法通常稱為邏輯斯諦(Logistic)回歸,可通過邏輯斯諦回歸實現(xiàn)二值分類效果。Sigmoid函數(shù)的數(shù)學(xué)表達式如下
圖3-4 Sigmoid函數(shù)圖像
a)較小尺度自變量情形 b)較大尺度自變量情形
當(dāng)x=0時,Sigmoid的函數(shù)值為0.5;隨著x的增大,對應(yīng)的Sigmoid值逼近于1;隨著x的減小,Sigmoid值逼近于0。如果x軸的刻度足夠大,Sigmoid函數(shù)就很接近于階躍函數(shù)。圖3-4a、b分別給出了Sigmoid函數(shù)在不同橫坐標(biāo)尺度下的函數(shù)圖像。
令g(x)=Sigmoid(x),則Sigmoid函數(shù)的導(dǎo)數(shù)g′(x)=g(x)[1-g(x)]。將f(X)=wTX作為自變量x代入g(x),可以得到如下激活函數(shù)
令H(X)=Sigmoid(f(X)),則H(X)是一個值域為(0,1)的函數(shù),可將H(X)看成是一個關(guān)于X的概率分布,用于表示X為正例的概率,即:H(X)的值越接近1,則X屬于正例的可能性就越大;H(X)的值越接近于0,則X屬于正例的可能性就越小,屬于反例的可能性就越大。也就是說,將H(X)定義為樣本X在正例條件下f(X)=1的后驗概率,即有
對于每個樣本X,都希望線性分類模型對其分類的類別結(jié)果為其真實類別的概率越接近于1越好。具體地說,如果樣本X為正例,希望H(X)值盡可能地接近1或者說越大越好;如果樣本X為反例,希望H(X)值盡可能地接近0,即1-H(X)的值越大越好。雖然在數(shù)學(xué)上難以精確地定量表示這個要求,但可用極大似然法對似然函數(shù)進行最優(yōu)化計算以獲得優(yōu)化的模型參數(shù)向量w,使得所求的線性模型能夠近似地滿足上述要求。
對于由任意給定n個帶標(biāo)簽樣本構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集,其中,yi表示Xi的標(biāo)簽。如果Xi為正例,則希望P(yi=1|Xi;w)的值越大越好,即
的值越大越好;如果Xi為反例,則希望P(yi=0|Xi;w)的值越大越好,即
P(yi=0|Xi;w)=1-P(yi=1|Xi;w)=1-H(Xi)
的值越大越好。由于yi的兩個取值狀態(tài)為互補,故可將上述兩式結(jié)合起來,即有
此時,無論Xi為反例還是正例,都希望P(yi|Xi;w)的值越大越好。由此可得H(X)在數(shù)據(jù)集上的似然函數(shù)l
為方便計算,將上式兩邊取對數(shù),得到
可將L作為目標(biāo)函數(shù),通過求解如下最優(yōu)化問題獲得所求模型參數(shù)向量w
在機器學(xué)習(xí)的具體應(yīng)用中,可以在線性分類模型的目標(biāo)函數(shù)中加入適當(dāng)范數(shù)懲罰項,通過正則化方式消除模型對樣本數(shù)據(jù)的過擬合。這與前述線性回歸模型類似,不再贅述。
【例題3.2】假設(shè)確定某產(chǎn)品是否為次品由兩個質(zhì)量指標(biāo)x1和x2決定,由于包裝人員粗心,將次品和合格品混合在一起。現(xiàn)取100個具有人工標(biāo)注的樣品,表3-2是這些樣品的具體數(shù)據(jù)(其中,y=1表示合格品,y=0表示次品)。試用表3-2所示數(shù)據(jù)集合構(gòu)造一個可用于對產(chǎn)品進行次品與合格品分類的線性分類模型。
表3-2 某產(chǎn)品質(zhì)量指標(biāo)
【解】這是一個二分類問題,建立線性模型f(x1,x2,x3)=w1x1+w2x2+w3x3。將w3置為線性模型的偏置項,即令x3恒等于1,則有
f(x1,x2,x3)=f(x1,x2)=w1x1+w2x2+w3
令w=(w1,w2,w3)T,Xi=(x1i,x2i,x3i)T,i=1,2,…,60。通過梯度下降算法求解如下似然函數(shù)的最優(yōu)化問題
通過編程計算,解得w=(4.125,0.48,-0.618)T。由此得到如下分類模型
有了分類模型,對于任意一個產(chǎn)品,只要知道該產(chǎn)品的質(zhì)量指標(biāo)x1和x2,就可以根據(jù)上述所求分類模型算出該產(chǎn)品為合格品的概率。□
現(xiàn)在介紹另外一種名為線性判別分析(Linear Discriminant Analysis,LDA)的分類方法,該方法也是基于線性模型實現(xiàn)機器學(xué)習(xí)分類任務(wù),即訓(xùn)練構(gòu)造一種線性分類器,有時亦稱為Fisher線性判別(Fisher Linear Discriminant,F(xiàn)LD)方法。
線性判別分析的基本思想是在特征空間中尋找一個合適的投影軸或投影直線,并將樣本的特性向量投影到該投影直線,使得樣本在該投影直線上易于分類。具體地說,對于給定訓(xùn)練樣例集,設(shè)法將訓(xùn)練樣本投影到如圖3-5所示的一種具有合適方向的直線f(X)=wTX上,使得該直線上同類樣例的投影點盡可能接近,而異類樣例的投影點則盡可能遠離。這樣在對新樣本進行分類時,可將其投影到該直線上并根據(jù)投影點位置確定其類別。
由于不同方向的投影直線會產(chǎn)生不同的投影效果,故投影直線方向的選擇是線性判別分析方法的關(guān)鍵。例如,圖3-6a、b是兩個不同投影方向的示意圖,顯然圖3-6b的投影效果比較好,可以有效實現(xiàn)對不同類別樣本點的分離。
圖3-5 樣本點在投影軸上的投影效果
圖3-6 不同投影方向的投影效果
a)非最佳投影方向 b)最佳投影方向
對于給定帶標(biāo)注訓(xùn)練樣本數(shù)據(jù)集,假設(shè)D中有且僅有兩類樣本,其中:
為第一類樣本,k=1,2,…,n1;
為第二類樣本,t=1,2,…,n2。需要找到一條合適的投影直線f(X)=wTX,使得同類樣本在該直線上的投影點盡可能接近且異類樣本在該直線上的投影點盡可能遠離。為此,首先需要分別計算這兩類樣本的映像在投影直線上的中心值或均值,由此獲得異類樣本映射在投影直線上分布的位置差異。
令和
分別表示第一類和第二類樣本投影在直線f(X)=wTX上的中心值,則有
其中,和
分別表示第一類樣本和第二類樣本的中心點坐標(biāo),即平均坐標(biāo)值。
令,則只要選擇適當(dāng)?shù)膮?shù)向量w,使得L(w)的值盡可能大,就能實現(xiàn)異類樣本在直線f(X)=wTX上的投影點盡可能遠離。
對屬于同一類的某類樣本,可用該類樣本的散列值表示它們在直線f(X)=wTX上投影點的離散程度。所謂某類樣本的散列值,就是該類所有樣本在直線f(X)=wTX上投影值與該類樣本在該直線上平均投影值之間的平方誤差總和。對于數(shù)據(jù)集D,令和
分別表示第一類樣本和第二類樣本的散列值,則有
顯然,散列值可以用來表示樣本在直線f(X)=wTX上投影點分布的密集程度:散列值越大,投影點的分布越分散;反之,投影點的分布越集中。
令,則只要選擇適當(dāng)?shù)膮?shù)向量w,使得S(w)的值盡可能地小,就能實現(xiàn)同類樣本在直線f(X)=wTX上的投影點盡可能接近。
令,則投影直線的選擇就轉(zhuǎn)化為以J(w)為目標(biāo)函數(shù)的最優(yōu)化問題,即尋找使J(w)值最大的參數(shù)向量w,并將其作為投影直線f(X)=wTX的參數(shù)。
首先,考察J(w)的分子
其中,稱為類間散度矩陣。
再考察J(w)的分母
其中,
稱S1為第一類的散列矩陣。
同理,有,其中
稱S2為第二類的散列矩陣。
令Sw=S1+S2,將Sw稱為類內(nèi)散度矩陣,則可將J(w)轉(zhuǎn)化為
在求J(w)的最大值之前,需要對分母進行歸一化處理。為此,令|wTSww|=1,則求J(w)的最大值等價于求解如下條件極值問題
引入拉格朗日乘子:C(w)=wTSbw-λ(wTSww-1),并令C(w)對w的導(dǎo)數(shù)為零,得
如果Sw可逆,則有
不難看出,w是矩陣的特征向量。又因為
,故有
其中,為常數(shù)。
綜合式(3-19)和式(3-20),可得
由于對w伸縮任何常數(shù)倍都不會改變投影方向,故可略去未知常數(shù)λ和λw,得到
至此,只需要算出訓(xùn)練樣本的均值和類內(nèi)散度矩陣,就可獲得最佳投影直線。以上求解過程針對二分類問題,可類似求解多分類問題。
【例題3.3】假設(shè)某產(chǎn)品是否合格取決于a、b這兩項質(zhì)量指標(biāo),表3-3表示10個帶標(biāo)注訓(xùn)練樣本,試用線性判別分析方法建立產(chǎn)品質(zhì)量線性分類器。
表3-3 某產(chǎn)品質(zhì)量指標(biāo)
【解】可以將表3-3中的樣本數(shù)據(jù)分為合格與不合格這兩類,即
合格類:Ф1={X1,X2,X3,X4,X5}={(4,2)T,(2,4)T,(2,3)T,(3,6)T,(4,4)T}
不合格類:Ф2={X6,X7,X8,X9,X10}={(9,10)T,(6,8)T,(9,5)T,(8,7)T,(10,8)T}算出這兩類樣本的均值和
。再算出這兩類樣本的散列矩陣
由S1和S2進一步算出類內(nèi)散度矩陣Sw
最后,根據(jù)公式算出參數(shù)向量w
得到最佳投影直線:f(X)=f(a,b)=0.9088a+0.4173b。對于任意一個產(chǎn)品對象,若已知該產(chǎn)品的質(zhì)量指標(biāo)X=(a,b)T,則可將其投影到該直線上實現(xiàn)質(zhì)量分類。□
線性判別分析將原始的高維數(shù)據(jù)投影到合適的投影直線上完成分類任務(wù),可將投影直線直接推廣到一般低維超平面。事實上,線性判別分析實現(xiàn)了一種對高維數(shù)據(jù)進行降維的效果。因此,線性判別分析還常用于數(shù)據(jù)降維以實現(xiàn)特征提取,這里不再贅述。
- 民族樂隊合奏小品
- 2020年出版碩士(MP)考試《441出版專業(yè)基礎(chǔ)》專用教材和典型題(含考研真題)詳解
- 貨幣金融學(xué)(第4版)
- 針織服裝藝術(shù)設(shè)計(第3版)
- 創(chuàng)意寫作教程
- 2020年河北省選聘大學(xué)生村官考試《申論》考點精講及典型題(含歷年真題)詳解
- 王建輝《自動控制原理》筆記和課后習(xí)題(含考研真題)詳解
- 伍勝健《數(shù)學(xué)分析》筆記和考研真題詳解
- 組織行為學(xué)(第2版)
- 2020年西藏自治區(qū)選聘大學(xué)生村官考試《行政職業(yè)能力測驗》題庫【真題精選+章節(jié)題庫+模擬試題】
- 計算機應(yīng)用基礎(chǔ)
- 全國自考《思想道德修養(yǎng)與法律基礎(chǔ)》(2015年版)筆記和課后習(xí)題詳解[課程代碼:03706]
- 食品機械與設(shè)備
- 劉炳善《英國文學(xué)簡史》(第3版)配套題庫【章節(jié)題庫(含名校考研真題)+模擬試題】
- 石墨烯基納米復(fù)合材料制備與應(yīng)用