- 基于機器學習的數據缺失值填補:理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 2082字
- 2020-09-24 10:12:25
3.1.2 熱平臺填補法
熱平臺填補法是指在一組完整樣本中尋找與不完整樣本相似的樣本,并利用該樣本的屬性值填補缺失值。該方法不以統計量或推測值為填補結果,而是直接以數據集中樣本自身的數值為填補值。
在此類方法的設計過程中,需要解決的主要問題是如何選擇相似樣本。處理該問題首先要確定相似樣本的來源。傳統的熱平臺填補法從數據集全體完整樣本中尋找與不完整樣本相似的樣本,不僅會增加算法的時間復雜度和空間復雜度,還往往使得所選樣本與不完整樣本的相似度不高,影響填補精度。因此,為了更有效地選擇相似樣本,通常采用與分層均值填補法相似的方式,找出與不完整屬性相關聯的屬性,并基于此將數據集劃分為不同的子集,將各子集作為相似樣本的來源。假設子集的數量為L,其中第l個子集記為X(l)。針對該子集中的不完整樣本,根據選擇相似樣本的方式不同,可將熱平臺填補法分為隨機熱平臺填補法、最近鄰熱平臺填補法和序貫熱平臺填補法。下面依次進行介紹。
1.隨機熱平臺填補法
隨機熱平臺填補法從不完整樣本所在子集中隨機抽取完整樣本作為其相似樣本,并將相似樣本的現有值作為填補結果。該方法的主要優勢在于當不完整樣本數量較多時,其選擇相似樣本的方式可視為一種有放回的隨機抽樣,所得填補結果不會影響樣本總體分布情況。同時,該方法簡單易行,時間和空間復雜度低,是社會調查領域較為常見的缺失值處理方法。然而,即使相似樣本源于不完整樣本所在的子集,在一定程度上保證了填補結果的有效性,但由于相似樣本是隨機選擇的,往往很難保證各填補值的精度。
2.最近鄰熱平臺填補
最近鄰熱平臺填補法根據不完整樣本中的現有值計算其與完整樣本的距離,從而選擇相似樣本。為了獲得更加精確的近鄰樣本,該方法通常根據與不完整屬性相關聯的屬性計算樣本距離。在該方法中,常用的距離度量指標包括歐式距離和馬氏距離(Mahalanobis Distance)。假設子集X(l)中的樣本數量為n(l),對于數據集中的樣本xi(i=1,2,…,n(l)),若其第j個屬性不完整,記該屬性的相關屬性編號為j1,j2,…,jM,定義={xi|xi∈X(l),? xij≠?,j=1,2,…,s}為子集X(l)中完整樣本的集合,xi與其中完整樣本xk的歐式距離如式(3-3)所示:
式(3-3)中,xijm、xkjM分別為樣本xi、樣本xk的第jM個屬性。作為一種常見的距離度量方式,歐式距離直接計算兩點在空間中的分布距離,設計較為直觀,但其將樣本不同屬性等同看待,未能將屬性間的相關性納入計算過程中,這一點有時不能滿足實際要求。為此,可將馬氏距離作為樣本間距離的度量。對于樣本xi,基于屬性j1,j2,…,jM所得與樣本xk的馬氏距離表示如式(3-4)所示:
式(3-4)中,表示基于編號為j1,j2,…,jM的屬性所求解的協方差,可用于記錄屬性間的相關性。矩陣S中的元素stt'表示第jt個屬性與第jt'個屬性的協方差,其中t=1,2,…,M;t'=1,2,…,M。對于子集X(l),僅根據其中的完整樣本計算協方差[1],計算方法如式(3-5)所示:
式(3-5)中,nco(l)表示集合Xco(l)中的樣本數量,jt、
jt'分別表示Xco(l)中各樣本在第jt個屬性和第jt'個屬性的平均值。根據實際情況選擇式(3-3)或式(3-4)計算xi與各完整樣本的距離,并獲取最近鄰樣本的現有值用于缺失值填補。相比于隨機熱平臺填補法,此方法對數據集中現有值的利用更加充分,所得填補結果更貼近真實值。
3.序貫熱平臺填補法
序貫熱平臺填補法通過計算屬性間的相關性找出與不完整屬性相關性最高的完整屬性,隨后對子集內的樣本基于該完整屬性按照一定的順序排列。對于不完整屬性中的缺失值,將其上方相鄰樣本的現有值作為填補結果[2]。該方法常采用皮爾森相關系數(Pearson Correlation Coeff icient)度量屬性間的相關性。與計算協方差類似,皮爾森相關系數同樣是基于完整樣本集Xco(l)獲取的。對于第j個屬性和第j'個屬性,皮爾森相關系數如式(3-6)所示:
式(3-6)中,j、
j'分別為兩屬性內現有值的均值,σj、σj'的計算規則如式(3-7)所示:
分別計算各屬性與第j個屬性的皮爾森相關系數,該相關系數的絕對值越大,表明兩屬性的相關性越高。接著尋找最大相關系數對應的屬性,并根據樣本在該屬性上的取值對樣本重新排序。對于第j個屬性存在缺失的樣本,獲取其相鄰樣本的屬性值作為填補結果。相比于最近鄰熱平臺填補法,該方法僅根據與不完整屬性相關性最高的單個屬性尋找相似樣本,雖然參考的屬性數量減少,但對屬性間相關性的挖掘更加細致,在實際應用中可結合具體情況選用這兩種方法。
熱平臺填補法常用于處理社會調查中的數據缺失問題,是美國人口調查局經常使用的缺失值填補方法[3]。該方法極少使用同一數值作為大量缺失值的填補結果,對數據離散程度的影響很低。然而,由于填補值直接來源于其他樣本,在將其應用于回歸問題時,易使回歸方程的誤差增大,參數估計的穩定性下降,耗費更多的時間,給回歸問題的計算帶來不便。
在熱平臺填補法中,完整樣本來源于不完整樣本所在的數據集。冷平臺填補法是相對于熱平臺填補法而言的,從其他歷史數據集中獲取填補結果。與熱平臺填補法類似,針對各不完整樣本,該方法從歷史數據集中選擇相似樣本,并采用相似樣本的現有值作為填補結果。例如,在人口普查數據中,若某樣本的“居住地”屬性缺失,則采用該樣本最近一次接受調查時填寫的居住地作為填補值。冷平臺填補法選擇相似樣本的方式與熱平臺填補法大體相同,此處不再贅述。