- 機(jī)器學(xué)習(xí)及其應(yīng)用
- 汪榮貴等編著
- 3904字
- 2022-01-14 17:06:32
2.1 模型參數(shù)估計(jì)
對(duì)機(jī)器學(xué)習(xí)模型的參數(shù)直接進(jìn)行估計(jì)是一種最簡(jiǎn)單、最直觀的模型求解思路。顯然,機(jī)器學(xué)習(xí)模型的參數(shù)估計(jì)需要給出的是參數(shù)具體估計(jì)值,而不僅僅是參數(shù)的大致取值范圍。因此,機(jī)器學(xué)習(xí)模型的參數(shù)估計(jì)方法均為點(diǎn)估計(jì)方法。對(duì)于給定的機(jī)器學(xué)習(xí)任務(wù),同一種模型結(jié)構(gòu)在采用不同模型參數(shù)時(shí)的性能一般會(huì)存在一定的差異,如何選擇一組參數(shù)使得模型對(duì)具體任務(wù)的表現(xiàn)達(dá)到最優(yōu)是參數(shù)估計(jì)要解決的關(guān)鍵問題。本節(jié)簡(jiǎn)要介紹最小二乘、最大似然和最大后驗(yàn)這三種機(jī)器學(xué)習(xí)中最常用的參數(shù)估計(jì)方法。
2.1.1 最小二乘估計(jì)
最小二乘估計(jì)是一種基于誤差平方和最小化的參數(shù)估計(jì)方法。對(duì)于線性模型,其最小二乘估計(jì)量是一種具有最小方差的無偏估計(jì)量,由最小二乘法求得的參數(shù)估計(jì)值是最優(yōu)估計(jì)值。此外,最小二乘法計(jì)算簡(jiǎn)單、易于理解且具有良好的實(shí)際意義。因此,最小二乘法是對(duì)線性統(tǒng)計(jì)模型進(jìn)行參數(shù)估計(jì)的基本方法。
如前所述,對(duì)于任意一個(gè)給定的示例X,可將其表示為表征向量或特征向量的形式。不失一般性,將樣本集合中的每個(gè)示例分別看成是一個(gè)特征向量。假設(shè)訓(xùn)練樣本集為
可將其中的示例Xi表示為特征向量Xi=(x1i,x2i,…,xki)T,xsi為示例Xi的第s個(gè)特征。
線性模型的初始模型一般可寫成f(X)=XTβ,其中β=(β1,β2,…,βk)T為待求的參數(shù)向量,X為某個(gè)示例的特征向量。對(duì)于訓(xùn)練樣本集合中任意給定的一個(gè)示例Xi,模型參數(shù)β的真實(shí)值應(yīng)該盡可能使得模型對(duì)示例Xi的輸出f(Xi)與該示例標(biāo)注值yi之間的誤差達(dá)到最小。因此,從整體上看,如果存在參數(shù)向量的一組取值,線性模型能夠在該組參數(shù)取值下獲得模型輸出與標(biāo)注值之間在訓(xùn)練樣本集上最小的整體誤差,則將
作為β的估計(jì)值最為合理。
最小二乘法正是基于上述思想。用f(Xi)-yi表示模型f對(duì)示例Xi的輸出與該示例的真實(shí)值之間的誤差。為防止誤差正負(fù)值相互抵消和便于數(shù)學(xué)上的求導(dǎo)運(yùn)算,最小二乘法將優(yōu)化目標(biāo)函數(shù)定義為樣本個(gè)體誤差的平方和,即有
當(dāng)目標(biāo)函數(shù)取得最小值時(shí),所對(duì)應(yīng)模型參數(shù)為最優(yōu)。由于函數(shù)極值點(diǎn)處對(duì)所有參數(shù)的偏導(dǎo)均為0,故可由此求得最小二乘估計(jì)值。使用一個(gè)n×k的矩陣X=(X1,X2,…,Xn)T表示訓(xùn)練樣本集,則線性模型可表示為f(X)=Xβ,由此可得如下目標(biāo)函數(shù)
其中,F(β)為向量形式的誤差平方;y=(y1,y2,…,yn)T為訓(xùn)練樣本集的標(biāo)注值向量。F(β)取得最小值時(shí)所對(duì)應(yīng)的參數(shù)向量即為最小二乘法的估計(jì)值,即有
令F(β)對(duì)β的偏導(dǎo)數(shù)為0,可得方程組:XT(y-Xβ)=0。解此方程組可得參數(shù)向量β的最小二乘估計(jì)值為
【例題2.1】已知某工廠產(chǎn)值Q與其勞動(dòng)力投入L之間滿足關(guān)系Q=aLb,其中a、b為未知參數(shù)。試根據(jù)表2-1中的數(shù)據(jù)確定勞動(dòng)力投入L與工廠產(chǎn)值Q之間的關(guān)系。
表2-1 勞動(dòng)力投入與產(chǎn)值關(guān)系表
【解】工廠產(chǎn)值Q與其勞動(dòng)力投入L和資金投入K之間并不滿足線性關(guān)系,但可在等式兩邊同時(shí)取對(duì)數(shù)將其轉(zhuǎn)化為線性關(guān)系:lnQ=lna+blnL。令
yi=lnQ,xi=lnL;β0=lna,β1=b
將示例Xi定義為一個(gè)包含兩個(gè)元素的列向量,其中第一個(gè)元素恒為1,第二個(gè)元素為xi=lnL,即Xi=(1,xi)T,則可將原方程轉(zhuǎn)化為線性統(tǒng)計(jì)模型f(X)=βX,其中β=(β0,β1)為參數(shù)向量。依據(jù)最小二乘估計(jì)方法構(gòu)造優(yōu)化目標(biāo)如下
將目標(biāo)函數(shù)F(β)分別對(duì)參數(shù)向量中的元素β0和β1求偏導(dǎo)并令導(dǎo)數(shù)值為0,有
代入數(shù)據(jù)算得,
。故有a=e4.1952≈66.37,b=0.2835。由此得到該工廠產(chǎn)值Q與其勞動(dòng)力投入L之間滿足數(shù)量關(guān)系:Q=66.37L0.2835?!?/p>
2.1.2 最大似然估計(jì)
在機(jī)器學(xué)習(xí)領(lǐng)域,為了能夠有效計(jì)算和表達(dá)樣本出現(xiàn)的概率,通常假定面向同一任務(wù)的樣本服從相同的、帶有某種或某些參數(shù)的概率分布。如果能夠求出樣本概率分布的所有未知參數(shù),則可使用該分布對(duì)所有樣本進(jìn)行分析。最大似然估計(jì)是一種基于概率最大化的概率分布參數(shù)估計(jì)方法。該方法將當(dāng)前已出現(xiàn)的樣本類型看作一個(gè)已發(fā)生事件。既然該事件已經(jīng)出現(xiàn),就可假設(shè)其出現(xiàn)的概率最大。因此,樣本概率分布的參數(shù)估計(jì)值應(yīng)使得該事件出現(xiàn)的概率最大。這就是最大似然估計(jì)方法的基本思想。
假設(shè)樣本X為離散隨機(jī)變量,其概率分布函數(shù)為p(X;β),即有p(Xi|β)=P(X=Xi)。其中β=(β1,β2,…,βk)T為未知參數(shù)向量。假設(shè)從樣本總體中隨機(jī)抽取n個(gè)樣本X1,X2,…,Xn,則可將“從總體中隨機(jī)抽取到X1,X2,…,Xn這n個(gè)樣本”記為一個(gè)事件A。事件A發(fā)生的概率可用下列函數(shù)度量
上述函數(shù)是一個(gè)關(guān)于未知參數(shù)向量β的函數(shù),通常稱為似然函數(shù)。既然事件A已經(jīng)發(fā)生,那么該事件發(fā)生的概率應(yīng)該最大。故可將未知參數(shù)向量β的估計(jì)問題轉(zhuǎn)化為求似然函數(shù)L(β)最大值的優(yōu)化問題,即最大似然估計(jì)值為
【例2.2】假設(shè)一個(gè)不透明的盒里裝有3顆圍棋子,現(xiàn)用有放回抽樣法隨機(jī)抽取三次,每次拿一顆,得到白子2次,黑子1次。試用最大似然估計(jì)法估計(jì)盒中白子個(gè)數(shù)。
【解】設(shè)盒中有θ(θ=0,1,2,3)枚白子,p(白θ)為在一次采樣中抽到白子的概率分布,則有
當(dāng)θ=0時(shí),p(白θ)=0;當(dāng)θ=1時(shí),p(白θ)=1/3;
當(dāng)θ=2時(shí),p(白θ)=2/3;當(dāng)θ=3時(shí),p(白θ)=1。
由于三次采樣中抽到了兩次白子,故似然函數(shù)為L(θ)=[p(白θ)]2[1-p(白θ)]。分別取θ=0,1,2,3,可得L(0)=0,L(1)=2/27,L(2)=4/27,L(3)=0。為使得事件“三次采樣抽中兩次白子”發(fā)生概率最大,應(yīng)取作為參數(shù)θ的最大似然估計(jì),此時(shí)似然函數(shù)取最大值4/27。□
當(dāng)樣本X為連續(xù)隨機(jī)變量時(shí),可用其概率密度函數(shù)f(X;β)構(gòu)造似然函數(shù)L(β),即有
對(duì)似然函數(shù)L(β)進(jìn)行最大優(yōu)化計(jì)算即可得到對(duì)參數(shù)β的估計(jì)值,即。由于L(β)為多個(gè)函數(shù)連乘,難以求解,故取自然對(duì)數(shù)運(yùn)算將其轉(zhuǎn)化為累加形式的對(duì)數(shù)似然函數(shù)lnL(β)。自然對(duì)數(shù)函數(shù)為嚴(yán)格單調(diào)遞增函數(shù),L(β)與lnL(β)具有相同的極值點(diǎn),故L(β)與lnL(β)具有相同的優(yōu)化效果。對(duì)數(shù)似然函數(shù)lnL(β)的具體形式為
可通過對(duì)數(shù)似然lnL(β)的優(yōu)化計(jì)算獲得似然函數(shù)L(β)的最優(yōu)解,即有
。
【例題2.3】已知某校學(xué)生的身高服從正態(tài)分布N(μ,σ2),現(xiàn)從全體學(xué)生中隨機(jī)抽取10位同學(xué),測(cè)得他們的身高如表2-2所示。試根據(jù)表中數(shù)據(jù)估計(jì)該校學(xué)生身高的均值和方差。
表2-2 學(xué)生身高表
【解】已知正態(tài)分布的概率密度函數(shù)為
其中μ和σ2分別為方差,Xk表示k號(hào)學(xué)生的身高。由此可得如下似然函數(shù)
對(duì)數(shù)似然為
對(duì)lnL(μ,σ2)分別求μ和σ2的偏導(dǎo)并令導(dǎo)數(shù)值為0,可得
解得
代入數(shù)據(jù)可算得學(xué)生身高均值和方差的最大似然估計(jì)分別為,
?!?/p>
2.1.3 最大后驗(yàn)估計(jì)
最大后驗(yàn)估計(jì)是一種結(jié)合過往經(jīng)驗(yàn)的參數(shù)估計(jì)方法。與最大似然估計(jì)認(rèn)為待求參數(shù)是某個(gè)固定未知取值不同,最大后驗(yàn)估計(jì)認(rèn)為待求參數(shù)服從某一未知概率分布,參數(shù)以一定的概率取某一特定值。在進(jìn)行參數(shù)估計(jì)時(shí),最大后驗(yàn)估計(jì)依據(jù)過往經(jīng)驗(yàn)和已經(jīng)出現(xiàn)的樣本共同確定參數(shù)的可能取值。以拋擲硬幣試驗(yàn)為例,現(xiàn)在希望估計(jì)硬幣正面向上的概率θ,依據(jù)過往經(jīng)驗(yàn),硬幣正面向上的概率θ一般為0.5,但考慮到硬幣個(gè)體可能會(huì)存在某些特點(diǎn),故沒有將θ值確定為0.5,而是給出關(guān)于θ取值的一個(gè)概率分布函數(shù)g(θ),比如令
g(θ)被稱為對(duì)參數(shù)θ的先驗(yàn)概率分布或先驗(yàn)概率,表示根據(jù)過往經(jīng)驗(yàn)得到θ取值的概率。假如拋擲完成10次硬幣,其中7次正面向上,3次反面向上,則最大后驗(yàn)估計(jì)希望根據(jù)樣本出現(xiàn)情況對(duì)參數(shù)取值進(jìn)行估計(jì),即考慮在樣本取值已經(jīng)出現(xiàn)的情況下計(jì)算θ取值的條件概率f(θX),其中X表示已經(jīng)出現(xiàn)的樣本取值情況,f(θ|X)被稱為后驗(yàn)概率,可看成是根據(jù)樣本數(shù)據(jù)出現(xiàn)的實(shí)際情況對(duì)先驗(yàn)概率g(θ)的某種修正。后驗(yàn)概率最大時(shí)所對(duì)應(yīng)的參數(shù)取值即為所求的最大后驗(yàn)估計(jì)值,即有
由貝葉斯公式可知后驗(yàn)概率f(θ|X)的計(jì)算公式如下
其中,f(X|θ)為現(xiàn)有樣本所表現(xiàn)出的信息;分母p(X)為樣本分布。
顯然,p(X)與參數(shù)θ無關(guān)且恒大于零,故可直接通過最大化f(X|θ)g(θ)的優(yōu)化方式實(shí)現(xiàn)最大后驗(yàn)估計(jì),即有
由以上分析可知,最大后驗(yàn)估計(jì)通過綜合考慮參數(shù)θ的先驗(yàn)信息g(θ)和現(xiàn)有樣本信息f(X|θ)來確定參數(shù)的估計(jì)值。
繼續(xù)討論對(duì)上述拋擲硬幣試驗(yàn)的概率估計(jì)問題,由于g(θ=0.5)=0.9,故在θ=0.5的條件下,拋擲10次硬幣發(fā)生事件“7次正面向上,3次反面向上”的概率為
其中,“X=7,3”表示拋擲10次硬幣發(fā)生事件“7次正面向上,3次反面向上”。
由此可得
f(X=7,3|θ=0.5)g(θ=0.5)=0.10546875
由于f(X=7,3|θ≠0.5)是一個(gè)概率值,故有f(X=7,3|θ≠0.5)≤1,從而有
f(X=7,3|θ≠0.5)g(θ≠0.5)≤0.1<f(X=7,3|θ=0.5)g(θ=0.5)
根據(jù)最大后驗(yàn)估計(jì)理論可知
即硬幣正面向上概率的最大后驗(yàn)估計(jì)值。
由上述分析可知,盡管已知樣本的取值狀況與過往經(jīng)驗(yàn)不相符,但由于過往經(jīng)驗(yàn)較為可靠,故最大后驗(yàn)估計(jì)在結(jié)論上選擇相信了經(jīng)驗(yàn)而非實(shí)際樣本所表現(xiàn)出的信息,即認(rèn)為已知樣本取值狀況與過往經(jīng)驗(yàn)不相符的原因是由隨機(jī)波動(dòng)造成的。若使用最大似然估計(jì)方法對(duì)上述情況進(jìn)行參數(shù)估計(jì),則得到估計(jì)值為。但由于試驗(yàn)次數(shù)較少,試驗(yàn)結(jié)果可能存在較大波動(dòng)。因此,如果在這種情況下使用只考慮樣本信息的最大似然方法,則所得到的估計(jì)值可能會(huì)與參數(shù)的真實(shí)值存在較大差異。
一般地,在對(duì)多個(gè)未知參數(shù)進(jìn)行估計(jì)時(shí),可將最大后驗(yàn)估計(jì)表示為
其中,β=(β1,β2,…,βk)T為未知參數(shù)向量。
亦可將式(2-9)所示的目標(biāo)函數(shù)取自然對(duì)數(shù),得到與之等價(jià)的對(duì)數(shù)形式
【例題2.4】假設(shè)某公司員工過去三年的收入均服從均值為6(萬元),方差為0.36(萬元)的正態(tài)分布,表2-3表示從公司隨機(jī)抽取10名員工的收入數(shù)據(jù),試根據(jù)表中數(shù)據(jù)和過去員工的收入情況估計(jì)今年員工收入的均值和方差。
表2-3 某公司員工年收入數(shù)據(jù)
【解】已知正態(tài)分布的概率密度函數(shù)為
依題意可知,收入X的先驗(yàn)概率為
后驗(yàn)概率為
為求最大后驗(yàn)估計(jì)值,對(duì)上式取對(duì)數(shù)后分別對(duì)μ和σ2求偏導(dǎo)并令導(dǎo)數(shù)值為0
解得
將上面兩式進(jìn)行聯(lián)立并將表2-3中的數(shù)據(jù)代入,解得今年員工收入均值和方差的最大后驗(yàn)估計(jì)值分別為:。□
- 《中國(guó)近現(xiàn)代史綱要》(2018年版)筆記和課后習(xí)題(含典型題)詳解
- 病理學(xué)實(shí)驗(yàn)指導(dǎo)
- 人工智能導(dǎo)論(第2版)
- 歐洲專利制度研究
- 建筑材料
- 校園心理劇團(tuán)體心理輔導(dǎo)與咨詢
- 法理學(xué)
- 企業(yè)經(jīng)營(yíng)管理沙盤模擬實(shí)訓(xùn)教程
- 人力資源管理(原書第12版)
- 大學(xué)生職業(yè)生涯發(fā)展與就業(yè)創(chuàng)業(yè)指導(dǎo)
- 藥劑學(xué)
- 大學(xué)語文
- 2019年新托福聽力高分特訓(xùn)500題【命題分析+答題攻略+強(qiáng)化訓(xùn)練】
- 2020年教育碩士(Ed.M)333教育綜合考研題庫(kù)【名??佳姓骖}+章節(jié)題庫(kù)+模擬試題】
- 多媒體技術(shù)及應(yīng)用:習(xí)題與上機(jī)實(shí)踐