- 現代決策樹模型及其編程實踐:從傳統決策樹到深度決策樹
- 黃智瀕編著
- 329字
- 2022-08-12 16:11:26
2.1.1 缺失值的處理
實踐中收集的大多數數據集都可能包含缺失值。出現這種情況的原因可能是測量設備故障、數據收集過程中實驗條件或環境的變化、人為錯誤以及故意錯誤(例如,回答者不愿意泄露信息)等。
如果出現缺失值的樣本數較少,則可能會省略這些樣本。但是,如果樣本中有大量的特征屬性,每個特征屬性即使出現一小部分缺失值,也會影響很多樣本。例如,在30個特征屬性的情況下,如果只有5%的數據缺失(假設在目標和特征屬性間隨機和獨立地傳播),則幾乎80%的樣本將不得不被忽略,因為0.9530=0.215。
另一種處理缺失值的替代方法是,根據樣本中該特征屬性的其他值,將缺失值替換為估算值。例如,可以用所有樣本中該特征屬性的平均值替換該特征屬性的缺失值。但是,使用此類技術將導致樣本數據集缺乏變化,從而引入偏差。