- 基于機器學習的數據缺失值填補:理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 1774字
- 2020-09-24 10:12:28
3.3.1 參數估計法
參數估計法根據從總體中抽取的樣本估計總體分布中所含的未知參數,下面結合貝葉斯分類算法進行說明。假設X={xi|xi∈s,i=1,2,…,n}表示樣本數量為n,屬性數量為s,類別數量為c的數據集。其中,第i個樣本為xi=[xi1,xi2,…,xis]T。式(3-74)為通過貝葉斯分類算法計算得到的第i個樣本xi屬于第c類的概率:
式(3-74)中,P(c)表示第c類的先驗概率,即類內樣本占數據集全體樣本的比例。P(xi)表示證據(Evidence)因子,用于對所得概率進行歸一化,取值與分類無關。P(xi|c)是樣本xi相對于第c類的類條件概率(Class Conditional Probability)。此概率往往難以直接計算,根據樣本出現的頻率計算類條件概率通常是不可取的,因為此概率是樣本xi所有屬性的聯合概率。假設每個屬性有d種取值,則根據排列組合原理,數據集所在樣本空間將有ds種屬性值組合。此數值通常遠大于數據集中的樣本數量,意味著“未被觀測到”與“出現概率為零”是不等價的。參數估計法為此類問題提供了解決方案,即在樣本空間中樣本均為獨立同分布的前提下,將類條件概率P(xi|c)估計問題轉化為參數估計問題。具體來說,假設P(xi|c)具有確定的分布形式并且被一組參數組成的向量唯一確定,將該參數向量記為β(c),參數估計法將數據集中的樣本視為樣本空間中全體樣本的抽樣,并由此估計參數β(c),此時,將類條件概率P(xi|c)記為P(xi|β(c)),其中i=1,2,…,n;c=1,2,…,C。
參數估計法一般可分為點估計法(Point Estimation)和區間估計法(Interval Estimation)。點估計法是指依據抽取的樣本估計總體分布中所含的未知參數;區間估計法是指在一定的正確度與精確度要求下,依據抽取的樣本構造適當的區間,作為總體分布中未知參數真值所在范圍。本節結合缺失值填補,對點估計法中的極大似然估計法進行介紹。
極大似然估計法是一種基于極大似然原理的參數估計方法。極大似然估計原理的直觀理解是,一個隨機實驗中如果有若干個可能的結果A、B、C…,若某次實驗的結果為A,則認為該實驗條件對結果A的出現有利。舉一個簡單的例子,假設有兩個外形完全相同的箱子,甲箱中裝有99個白球和1個黑球,乙箱中裝有99個黑球和1個白球。若某次實驗隨機選擇一個箱子并從中隨機抽取一個球,該球的顏色為黑色,這一黑球從乙箱抽取的概率比從甲箱抽取的概率大得多,自然更多地相信這個黑球是取自乙箱的。在極大似然原理的基礎上,由“結果為黑球”估計出“該球取自乙箱”的過程就是極大似然估計的過程。由此可見,極大似然估計法的目的是:利用已知的樣本結果,反推最大概率導致這樣結果的參數值。
將數據集X中第c類樣本的集合記為X(c),通過該子集中的樣本反推參數向量β(c)的方法如式(3-75)所示:
式(3-75)為參數β(c)對于子集X(c)的似然函數(Likelihood Function),記為L(β(c))=P(X(c)|β(c))。為了便于求導,并避免計算機運算過程中出現下溢,則采用式(3-76)所示的對數似然函數(Log-Likelihood Function)代替原似然函數:
假設(c)是H(β(c))取最大值時對應的β(c)取值,則對β(c)進行極大似然估計的過程等價于尋找
(c)的過程。因此,極大似然估計的目標函數如式(3-77)所示:
假設參數向量β(c)中包含M個元素,若似然函數連續可導,則可通過對參數求導,并令導數值為0,以求其極大值,如式(3-78)所示:
式中,?H(β(c))表示對數似然函數在β(c)處的梯度。將式(3-75)代入式(3-78),結果如式(3-79)所示:
一種極簡的情況是M=1,此時參數向量β(c)中僅包含一個元素,該元素記為β1(c),可通過式(3-80)進行參數估計:
下面舉例說明基于極大似然估計法的參數估計過程,假設類概率密度P(xi|c)對應的樣本xi∈X(c)服從正態分布N(μ,σ2),μ為該正態分布的均值,σ為其標準差。為簡便起見,在本例中假設各樣本僅包含單維屬性,式(3-81)至式(3-84)為通過極大似然估計求解、
2的過程。
步驟1:將式(3-75)與正態分布的假設結合,參數μ、σ對于子集X(c)的似然函數如式(3-81)所示:
式(3-81)中,μ、σ為待估計參數。
步驟2:令n(c)表示子集X(c)中的樣本數量,則式(3-81)對應的對數似然函數如式(3-82)所示:
步驟3:對μ和σ2分別求導,所得方程組如式(3-83)所示:
步驟4:求解該方程組,所得結果如式(3-84)所示:
由式(3-84)可見,通過極大似然估計得到的正態分布均值等于類內樣本均值,方差等于類內樣本的方差,此結果與正態分布中關于均值和方差的定義相吻合。
極大似然估計法提供了一種簡便的類條件概率估計方式,但其精度受所假設概率分布形式的影響較大,在應用時,需根據實際數據集盡可能合理地分布假設。此外,若參與估計的樣本數量不足,也會對所得參數的準確性產生影響。