第2章　缺失數據的處理方法

數據缺失是科學研究和實際應用中普遍存在的問題，缺失數據的處理方法已經受到越來越多的關注。本章將對常用的缺失數據處理方法進行詳細的探討與分析。首先介紹三種數據缺失機制，即完全隨機缺失（Missing Completely At Random，MCAR）、隨機缺失（Missing At Random，MAR）和非隨機缺失（Missing Not At Random，MNAR），理解這些數據缺失機制對于學習缺失數據的處理至關重要。然后，從不做處理、不完整樣本刪除，以及缺失值填補三個方面分析常見的缺失數據處理方法。其中，不做處理是將缺失值直接引入具體建模過程，并基于一定規則避免對缺失值的直接處理；不完整樣本刪除是指刪除數據集中的不完整樣本，構造樣本量縮減的數據集以供后續分析；缺失值填補則通過現有數據的研究為缺失值計算合理的填補值，進而得到與原始數據集規模一致的完整數據集。鑒于缺失值填補方法的良好性能，該處理方式已取得較好的研究成果。本章將對缺失值填補方法進一步探討，主要涉及缺失值填補的基本概念、缺失值填補方法的多角度分類，以及填補方法的性能度量。

合理的缺失數據處理方法能夠改善數據質量，進而提高后續分析的準確性。因此，在科學研究與實際應用中，應該針對具體問題選擇行之有效的缺失數據處理方法。

官术网_书友最值得收藏!

基于機器學習的數據缺失值填補：理論與方法

第2章 缺失數據的處理方法

第2章　缺失數據的處理方法