- 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)缺失值填補(bǔ):理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 2084字
- 2020-09-24 10:12:23
2.3.3 性能度量
正如2.3.2節(jié)所述,目前存在眾多的缺失值填補(bǔ)方法,這些方法在具體場(chǎng)景下的填補(bǔ)效果各有不同。實(shí)際應(yīng)用中,可對(duì)不同方法的填補(bǔ)性能進(jìn)行度量與對(duì)比,從中選擇最為有效的方法進(jìn)行缺失值處理。
在科研實(shí)驗(yàn)中,研究人員通常按照一定缺失率從完整數(shù)據(jù)集中刪除部分現(xiàn)有值,以此構(gòu)造缺失值,隨后采用所設(shè)計(jì)的填補(bǔ)方法對(duì)缺失值進(jìn)行估算。在此過(guò)程中,缺失值對(duì)應(yīng)的真實(shí)值已知,故可根據(jù)填補(bǔ)值和缺失值相應(yīng)真實(shí)值之間的誤差來(lái)度量方法的填補(bǔ)性能。
當(dāng)填補(bǔ)方法中不包含模型參數(shù)時(shí),可直接根據(jù)現(xiàn)有數(shù)據(jù)計(jì)算填補(bǔ)值,并根據(jù)所得填補(bǔ)值計(jì)算填補(bǔ)性能。例如,均值填補(bǔ)法根據(jù)不完整屬性中現(xiàn)有值的平均值求解填補(bǔ)值,無(wú)須任何模型參數(shù)即可實(shí)現(xiàn)填補(bǔ)。當(dāng)填補(bǔ)方法中包含模型參數(shù)時(shí),可將完整數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集。其中,訓(xùn)練集用于模型參數(shù)的學(xué)習(xí),測(cè)試集用于評(píng)估所得模型的填補(bǔ)性能。此外,模型通常涉及超參數(shù)的設(shè)置問(wèn)題。超參數(shù)是指在模型構(gòu)建或模型參數(shù)學(xué)習(xí)之前需預(yù)先設(shè)定的一類參數(shù),例如,神經(jīng)網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)、訓(xùn)練期間的學(xué)習(xí)率、最大迭代次數(shù)等均稱為超參數(shù)。針對(duì)超參數(shù)設(shè)置問(wèn)題,可從數(shù)據(jù)集中抽出部分樣本構(gòu)成驗(yàn)證集,并根據(jù)模型在驗(yàn)證集上的表現(xiàn)選取適宜的超參數(shù)?;谟?xùn)練集、測(cè)試集和驗(yàn)證集的填補(bǔ)實(shí)驗(yàn)過(guò)程大致如下:首先從測(cè)試集、驗(yàn)證集中按一定缺失率刪除部分現(xiàn)有值以構(gòu)造缺失值;隨后,設(shè)置超參數(shù)并建立填補(bǔ)模型,在此基礎(chǔ)上利用訓(xùn)練集求解填補(bǔ)模型中的參數(shù),根據(jù)模型在驗(yàn)證集上求得的填補(bǔ)值計(jì)算其填補(bǔ)性能;接著,設(shè)置不同的超參數(shù),按照上述流程計(jì)算在不同超參數(shù)下填補(bǔ)模型的填補(bǔ)性能,并從中選擇最優(yōu)性能所對(duì)應(yīng)的超參數(shù)作為最終的超參數(shù);最后,基于所得超參數(shù)建立填補(bǔ)模型,根據(jù)訓(xùn)練集求解模型參數(shù),并通過(guò)模型在測(cè)試集上的填補(bǔ)結(jié)果衡量方法的填補(bǔ)性能。
下面介紹幾種常用的填補(bǔ)性能評(píng)價(jià)指標(biāo),均方根誤差(Root Mean Square Error,RMSE)的定義如式(2-11)所示:
式(2-11)中,m是由所有填補(bǔ)值構(gòu)成的集合,
t表示集合
m內(nèi)的填補(bǔ)值,at表示與該填補(bǔ)值對(duì)應(yīng)的真實(shí)值。
均方誤差(Mean Square Error,MSE)的定義如式(2-12)所示:
平均絕對(duì)誤差(Mean Absolute Error,MAE)的定義如式(2-13)所示:
在上述評(píng)價(jià)指標(biāo)中,RMSE僅是MSE的平方根,二者的評(píng)價(jià)效果完全相同。下面僅以RMSE為例,將其和MAE指標(biāo)進(jìn)行比較。RMSE對(duì)每個(gè)誤差進(jìn)行平方運(yùn)算,如圖2-3所示,當(dāng)誤差at-t∈(0,1)時(shí),RMSE借助(at-
t)2縮小誤差,當(dāng)誤差at-
t∈(-∞,1)∪(1,+∞)時(shí),RMSE借助(at-
t)2放大誤差。因此,RMSE指標(biāo)能夠改變誤差的幅度。相較之下,MAE僅是對(duì)誤差取絕對(duì)值,與誤差的原始尺度完全相同。
圖2-3 RMSE和MAE的區(qū)別
在應(yīng)用上述指標(biāo)時(shí),RMSE、MSE和MAE的數(shù)量級(jí)可能很大,原因在于這些指標(biāo)無(wú)法消除屬性的量綱。例如,在家庭經(jīng)濟(jì)調(diào)查中,家庭人均年收入和家庭人數(shù)這兩個(gè)屬性在數(shù)量級(jí)上存在較大差異,前者往往擁有較大的數(shù)量級(jí),其誤差在上述指標(biāo)中的占比較大,而后者的數(shù)量級(jí)相對(duì)較小,其誤差的占比較小。
下面介紹的兩個(gè)指標(biāo)能夠在一定程度上消除屬性量綱對(duì)評(píng)價(jià)結(jié)果的影響。平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)定義如式(2-14):
MAPE指標(biāo)將每個(gè)填補(bǔ)值的估計(jì)誤差at-t和真實(shí)值at進(jìn)行比較,使得估計(jì)誤差和真實(shí)值的量綱相同。然而,當(dāng)某真實(shí)值的取值為0時(shí),式(2-14)中會(huì)出現(xiàn)分母為0的現(xiàn)象,此時(shí)可考慮在分母加上一個(gè)較小的常數(shù)值,以使MAPE正常求解。
確定系數(shù)(Coeff icient of Determination)通常寫作R2,定義如式(2-15)所示:
式(2-15)中,SSres是殘差平方和(Residual Sum of Squares,RSS),表示真實(shí)值與填補(bǔ)值之間誤差的平方和;SStot是總平方和(Total Sum of Squares,TSS),體現(xiàn)了真實(shí)值的離散程度。表示真實(shí)值的平均值,可描述為式(2-16):
在式(2-15)中,SSres和SStot具有相同的量綱,通過(guò)除法運(yùn)算能夠在一定程度上消除屬性量綱對(duì)評(píng)價(jià)結(jié)果的影響。由于SStot是對(duì)真實(shí)值離散程度的描述,其數(shù)值不受填補(bǔ)值的影響。一般來(lái)說(shuō),SSres越小,R2的指標(biāo)值越大,方法的填補(bǔ)性能越好。
然而在實(shí)際環(huán)境中,缺失值所對(duì)應(yīng)的真實(shí)值往往無(wú)法獲取,因此不能基于上述評(píng)價(jià)指標(biāo)度量方法的填補(bǔ)性能。在此情況下,可考慮根據(jù)后續(xù)分析的效果判斷前期填補(bǔ)的合理性[12]。以分類為例,不完整數(shù)據(jù)集由填補(bǔ)方法處理為完整數(shù)據(jù)集后,將此完整數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,基于訓(xùn)練集建立分類模型,并利用所建模型在測(cè)試集上的分類效果間接度量填補(bǔ)性能。準(zhǔn)確率(Accuracy)是一種常用的分類精度指標(biāo),定義如式(2-17)所示:
式(2-17)中,nt'表示類別預(yù)測(cè)正確的測(cè)試樣本數(shù)量,nt表示測(cè)試集的樣本數(shù)量。除該指標(biāo)外,還可采用精確率(Precision)、召回率(Recall)、F1得分(F1 Score)[13]等對(duì)填補(bǔ)方法的性能實(shí)行間接度量。
為了基于以上指標(biāo)對(duì)填補(bǔ)方法的性能展開客觀合理的度量,可采用諸如k折交叉驗(yàn)證法等設(shè)計(jì)實(shí)驗(yàn)方案?;趉折交叉驗(yàn)證的填補(bǔ)實(shí)驗(yàn)方案如圖2-4所示。首先將數(shù)據(jù)集隨機(jī)等分為k個(gè)子集,依次將1個(gè)子集作為測(cè)試集,其他k-1個(gè)子集作為訓(xùn)練集,構(gòu)造k組訓(xùn)練集與測(cè)試集對(duì)。圖2-4中,每組內(nèi)深色標(biāo)記的子集表示測(cè)試集,所有淺色標(biāo)記的子集共同構(gòu)成該組中的訓(xùn)練集。接著,分別利用各組中的訓(xùn)練集與測(cè)試集展開k次實(shí)驗(yàn)。具體來(lái)說(shuō),每次實(shí)驗(yàn)期間,首先通過(guò)訓(xùn)練集完成模型訓(xùn)練,接著在測(cè)試集上人工構(gòu)造部分缺失值并求解模型在測(cè)試集上的填補(bǔ)評(píng)價(jià)指標(biāo)值,最終利用k個(gè)指標(biāo)值的平均值度量方法的填補(bǔ)性能。
圖2-4 基于k折交叉驗(yàn)證的填補(bǔ)實(shí)驗(yàn)方案
- AI芯片:科技探索與AGI愿景
- 新智元:機(jī)器+人類=超智能時(shí)代
- 生命3.0
- 腦機(jī)穿越:腦機(jī)接口改變?nèi)祟愇磥?lái)
- 生成式人工智能(基于PyTorch實(shí)現(xiàn))
- 自然語(yǔ)言處理導(dǎo)論
- MindSpore科學(xué)計(jì)算
- 深度學(xué)習(xí)實(shí)戰(zhàn):基于TensorFlow 2和Keras(原書第2版)
- 智能制造:AI落地制造業(yè)之道
- 顛覆:AI時(shí)代的企業(yè)管理方式大變革
- 機(jī)器學(xué)習(xí)實(shí)踐指南:案例應(yīng)用解析
- Manus應(yīng)用與AI Agent設(shè)計(jì)指南:從入門到精通
- 駕馭ChatGPT:學(xué)會(huì)使用提示詞
- 人工智能:數(shù)據(jù)與模型安全
- Python神經(jīng)網(wǎng)絡(luò)編程