下载一个迷你世界

書名：基于機(jī)器學(xué)習(xí)的數(shù)據(jù)缺失值填補(bǔ)：理論與方法
作者名：賴曉晨張立勇劉輝吳霞
本章字?jǐn)?shù)： 2084字
更新時(shí)間： 2020-09-24 10:12:23

2.3.3　性能度量

正如2.3.2節(jié)所述，目前存在眾多的缺失值填補(bǔ)方法，這些方法在具體場(chǎng)景下的填補(bǔ)效果各有不同。實(shí)際應(yīng)用中，可對(duì)不同方法的填補(bǔ)性能進(jìn)行度量與對(duì)比，從中選擇最為有效的方法進(jìn)行缺失值處理。

在科研實(shí)驗(yàn)中，研究人員通常按照一定缺失率從完整數(shù)據(jù)集中刪除部分現(xiàn)有值，以此構(gòu)造缺失值，隨后采用所設(shè)計(jì)的填補(bǔ)方法對(duì)缺失值進(jìn)行估算。在此過(guò)程中，缺失值對(duì)應(yīng)的真實(shí)值已知，故可根據(jù)填補(bǔ)值和缺失值相應(yīng)真實(shí)值之間的誤差來(lái)度量方法的填補(bǔ)性能。

當(dāng)填補(bǔ)方法中不包含模型參數(shù)時(shí)，可直接根據(jù)現(xiàn)有數(shù)據(jù)計(jì)算填補(bǔ)值，并根據(jù)所得填補(bǔ)值計(jì)算填補(bǔ)性能。例如，均值填補(bǔ)法根據(jù)不完整屬性中現(xiàn)有值的平均值求解填補(bǔ)值，無(wú)須任何模型參數(shù)即可實(shí)現(xiàn)填補(bǔ)。當(dāng)填補(bǔ)方法中包含模型參數(shù)時(shí)，可將完整數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集。其中，訓(xùn)練集用于模型參數(shù)的學(xué)習(xí)，測(cè)試集用于評(píng)估所得模型的填補(bǔ)性能。此外，模型通常涉及超參數(shù)的設(shè)置問(wèn)題。超參數(shù)是指在模型構(gòu)建或模型參數(shù)學(xué)習(xí)之前需預(yù)先設(shè)定的一類參數(shù)，例如，神經(jīng)網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)、訓(xùn)練期間的學(xué)習(xí)率、最大迭代次數(shù)等均稱為超參數(shù)。針對(duì)超參數(shù)設(shè)置問(wèn)題，可從數(shù)據(jù)集中抽出部分樣本構(gòu)成驗(yàn)證集，并根據(jù)模型在驗(yàn)證集上的表現(xiàn)選取適宜的超參數(shù)?；谟?xùn)練集、測(cè)試集和驗(yàn)證集的填補(bǔ)實(shí)驗(yàn)過(guò)程大致如下：首先從測(cè)試集、驗(yàn)證集中按一定缺失率刪除部分現(xiàn)有值以構(gòu)造缺失值；隨后，設(shè)置超參數(shù)并建立填補(bǔ)模型，在此基礎(chǔ)上利用訓(xùn)練集求解填補(bǔ)模型中的參數(shù)，根據(jù)模型在驗(yàn)證集上求得的填補(bǔ)值計(jì)算其填補(bǔ)性能；接著，設(shè)置不同的超參數(shù)，按照上述流程計(jì)算在不同超參數(shù)下填補(bǔ)模型的填補(bǔ)性能，并從中選擇最優(yōu)性能所對(duì)應(yīng)的超參數(shù)作為最終的超參數(shù)；最后，基于所得超參數(shù)建立填補(bǔ)模型，根據(jù)訓(xùn)練集求解模型參數(shù)，并通過(guò)模型在測(cè)試集上的填補(bǔ)結(jié)果衡量方法的填補(bǔ)性能。

下面介紹幾種常用的填補(bǔ)性能評(píng)價(jià)指標(biāo)，均方根誤差（Root Mean Square Error，RMSE）的定義如式（2-11）所示：

式（2-11）中，_m是由所有填補(bǔ)值構(gòu)成的集合，_t表示集合_m內(nèi)的填補(bǔ)值，a_t表示與該填補(bǔ)值對(duì)應(yīng)的真實(shí)值。

均方誤差（Mean Square Error，MSE）的定義如式（2-12）所示：

平均絕對(duì)誤差（Mean Absolute Error，MAE）的定義如式（2-13）所示：

在上述評(píng)價(jià)指標(biāo)中，RMSE僅是MSE的平方根，二者的評(píng)價(jià)效果完全相同。下面僅以RMSE為例，將其和MAE指標(biāo)進(jìn)行比較。RMSE對(duì)每個(gè)誤差進(jìn)行平方運(yùn)算，如圖2-3所示，當(dāng)誤差a_t-_t∈(0,1)時(shí)，RMSE借助(a_t-_t)²縮小誤差，當(dāng)誤差a_t-_t∈(-∞,1)∪(1,+∞)時(shí)，RMSE借助(a_t-_t)²放大誤差。因此，RMSE指標(biāo)能夠改變誤差的幅度。相較之下，MAE僅是對(duì)誤差取絕對(duì)值，與誤差的原始尺度完全相同。

圖2-3　RMSE和MAE的區(qū)別

在應(yīng)用上述指標(biāo)時(shí)，RMSE、MSE和MAE的數(shù)量級(jí)可能很大，原因在于這些指標(biāo)無(wú)法消除屬性的量綱。例如，在家庭經(jīng)濟(jì)調(diào)查中，家庭人均年收入和家庭人數(shù)這兩個(gè)屬性在數(shù)量級(jí)上存在較大差異，前者往往擁有較大的數(shù)量級(jí)，其誤差在上述指標(biāo)中的占比較大，而后者的數(shù)量級(jí)相對(duì)較小，其誤差的占比較小。

下面介紹的兩個(gè)指標(biāo)能夠在一定程度上消除屬性量綱對(duì)評(píng)價(jià)結(jié)果的影響。平均絕對(duì)百分比誤差（Mean Absolute Percentage Error，MAPE）定義如式（2-14）：

MAPE指標(biāo)將每個(gè)填補(bǔ)值的估計(jì)誤差a_t-_t和真實(shí)值a_t進(jìn)行比較，使得估計(jì)誤差和真實(shí)值的量綱相同。然而，當(dāng)某真實(shí)值的取值為0時(shí)，式（2-14）中會(huì)出現(xiàn)分母為0的現(xiàn)象，此時(shí)可考慮在分母加上一個(gè)較小的常數(shù)值，以使MAPE正常求解。

確定系數(shù)（Coeff icient of Determination）通常寫作R²，定義如式（2-15）所示：

式（2-15）中，SS_res是殘差平方和（Residual Sum of Squares，RSS），表示真實(shí)值與填補(bǔ)值之間誤差的平方和；SS_tot是總平方和（Total Sum of Squares，TSS），體現(xiàn)了真實(shí)值的離散程度。表示真實(shí)值的平均值，可描述為式（2-16）：

在式（2-15）中，SS_res和SS_tot具有相同的量綱，通過(guò)除法運(yùn)算能夠在一定程度上消除屬性量綱對(duì)評(píng)價(jià)結(jié)果的影響。由于SStot是對(duì)真實(shí)值離散程度的描述，其數(shù)值不受填補(bǔ)值的影響。一般來(lái)說(shuō)，SS_res越小，R²的指標(biāo)值越大，方法的填補(bǔ)性能越好。

然而在實(shí)際環(huán)境中，缺失值所對(duì)應(yīng)的真實(shí)值往往無(wú)法獲取，因此不能基于上述評(píng)價(jià)指標(biāo)度量方法的填補(bǔ)性能。在此情況下，可考慮根據(jù)后續(xù)分析的效果判斷前期填補(bǔ)的合理性^[12]。以分類為例，不完整數(shù)據(jù)集由填補(bǔ)方法處理為完整數(shù)據(jù)集后，將此完整數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集，基于訓(xùn)練集建立分類模型，并利用所建模型在測(cè)試集上的分類效果間接度量填補(bǔ)性能。準(zhǔn)確率（Accuracy）是一種常用的分類精度指標(biāo)，定義如式（2-17）所示：

式（2-17）中，n_t'表示類別預(yù)測(cè)正確的測(cè)試樣本數(shù)量，n_t表示測(cè)試集的樣本數(shù)量。除該指標(biāo)外，還可采用精確率（Precision）、召回率（Recall）、F1得分（F1 Score）^[13]等對(duì)填補(bǔ)方法的性能實(shí)行間接度量。

為了基于以上指標(biāo)對(duì)填補(bǔ)方法的性能展開客觀合理的度量，可采用諸如k折交叉驗(yàn)證法等設(shè)計(jì)實(shí)驗(yàn)方案?；趉折交叉驗(yàn)證的填補(bǔ)實(shí)驗(yàn)方案如圖2-4所示。首先將數(shù)據(jù)集隨機(jī)等分為k個(gè)子集，依次將1個(gè)子集作為測(cè)試集，其他k-1個(gè)子集作為訓(xùn)練集，構(gòu)造k組訓(xùn)練集與測(cè)試集對(duì)。圖2-4中，每組內(nèi)深色標(biāo)記的子集表示測(cè)試集，所有淺色標(biāo)記的子集共同構(gòu)成該組中的訓(xùn)練集。接著，分別利用各組中的訓(xùn)練集與測(cè)試集展開k次實(shí)驗(yàn)。具體來(lái)說(shuō)，每次實(shí)驗(yàn)期間，首先通過(guò)訓(xùn)練集完成模型訓(xùn)練，接著在測(cè)試集上人工構(gòu)造部分缺失值并求解模型在測(cè)試集上的填補(bǔ)評(píng)價(jià)指標(biāo)值，最終利用k個(gè)指標(biāo)值的平均值度量方法的填補(bǔ)性能。

圖2-4　基于k折交叉驗(yàn)證的填補(bǔ)實(shí)驗(yàn)方案

官术网_书友最值得收藏!

基于機(jī)器學(xué)習(xí)的數(shù)據(jù)缺失值填補(bǔ)：理論與方法

2.3.3 性能度量

2.3.3　性能度量