- 基于機器學習的數據缺失值填補:理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 497字
- 2020-09-24 10:12:21
第2章 缺失數據的處理方法
數據缺失是科學研究和實際應用中普遍存在的問題,缺失數據的處理方法已經受到越來越多的關注。本章將對常用的缺失數據處理方法進行詳細的探討與分析。首先介紹三種數據缺失機制,即完全隨機缺失(Missing Completely At Random,MCAR)、隨機缺失(Missing At Random,MAR)和非隨機缺失(Missing Not At Random,MNAR),理解這些數據缺失機制對于學習缺失數據的處理至關重要。然后,從不做處理、不完整樣本刪除,以及缺失值填補三個方面分析常見的缺失數據處理方法。其中,不做處理是將缺失值直接引入具體建模過程,并基于一定規則避免對缺失值的直接處理;不完整樣本刪除是指刪除數據集中的不完整樣本,構造樣本量縮減的數據集以供后續分析;缺失值填補則通過現有數據的研究為缺失值計算合理的填補值,進而得到與原始數據集規模一致的完整數據集。鑒于缺失值填補方法的良好性能,該處理方式已取得較好的研究成果。本章將對缺失值填補方法進一步探討,主要涉及缺失值填補的基本概念、缺失值填補方法的多角度分類,以及填補方法的性能度量。
合理的缺失數據處理方法能夠改善數據質量,進而提高后續分析的準確性。因此,在科學研究與實際應用中,應該針對具體問題選擇行之有效的缺失數據處理方法。