官术网_书友最值得收藏!

2.4 本章小結(jié)

理解數(shù)據(jù)缺失機(jī)制對(duì)于缺失數(shù)據(jù)的處理有著重要且基礎(chǔ)的意義。首先,本章對(duì)完全隨機(jī)缺失、隨機(jī)缺失和非隨機(jī)缺失機(jī)制進(jìn)行詳細(xì)介紹。從發(fā)生頻率上講,隨機(jī)缺失和非隨機(jī)缺失是現(xiàn)實(shí)生活中比較常見(jiàn)的兩種數(shù)據(jù)缺失機(jī)制,完全隨機(jī)缺失并不常見(jiàn)。從處理難易度上講,完全隨機(jī)缺失容易處理,而非隨機(jī)缺失難以處理,一般可將其有條件地轉(zhuǎn)化為隨機(jī)缺失后再加以處理。

接著,本章闡述了3種缺失數(shù)據(jù)的處理方法,其中,不做處理方法將缺失值直接參與模型構(gòu)建,并在建模期間避免對(duì)缺失值的直接處理。不完整樣本刪除法主要包括完全個(gè)案分析和可用個(gè)案分析,此類(lèi)方法通過(guò)刪除數(shù)據(jù)集中不完整樣本得到一個(gè)樣本量縮減的數(shù)據(jù)集。相較于前兩種處理方法,缺失值填補(bǔ)法為每個(gè)缺失值計(jì)算合理的填補(bǔ)值,并利用填補(bǔ)值替換數(shù)據(jù)集中的缺失值,從而構(gòu)造與原始數(shù)據(jù)集規(guī)模一致的完整數(shù)據(jù)集。

在上述3種處理方法中,缺失值填補(bǔ)法的研究與應(yīng)用較為廣泛,因此本章對(duì)缺失值填補(bǔ)法展開(kāi)了詳細(xì)探討。首先介紹了缺失值填補(bǔ)的一些基本概念,接著從多個(gè)角度對(duì)填補(bǔ)方法進(jìn)行分類(lèi),旨在對(duì)當(dāng)前的缺失值填補(bǔ)法做一個(gè)宏觀認(rèn)識(shí),最后闡述了諸如RMSE、MSE、MAE和MAPE等多種填補(bǔ)性能的度量方式。

鑒于目前的缺失值處理方法眾多,在實(shí)際應(yīng)用中,應(yīng)該針對(duì)具體問(wèn)題選擇合理有效的填補(bǔ)方法展開(kāi)缺失值處理,進(jìn)而提高數(shù)據(jù)質(zhì)量以及后續(xù)分析的準(zhǔn)確性。

主站蜘蛛池模板: 施甸县| 苏尼特右旗| 宜宾县| 吉安县| 汉源县| 河北省| 翼城县| 芜湖市| 兴山县| 阿克| 新营市| 开封市| 横峰县| 四子王旗| 绩溪县| 瑞昌市| 苏州市| 唐山市| 通渭县| 海南省| 蒙城县| 新和县| 普宁市| 无为县| 汉中市| 安阳县| 阳信县| 三穗县| 达尔| 错那县| 高淳县| 监利县| 武邑县| 南城县| 江达县| 西乌珠穆沁旗| 长沙县| 西畴县| 克什克腾旗| 东安县| 凤冈县|