- 基于機器學習的數據缺失值填補:理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 583字
- 2020-09-24 10:12:20
1.4 本章小結
數據缺失是實驗研究和行業應用中普遍存在的問題。在實際應用中,若直接基于不完整數據進行分析研究,不僅會增加建模難度和分析過程的復雜性,還會導致分析結果的準確性和可靠性降低。因此,我們需要在數據的預處理階段對缺失數據進行妥善處理。直接刪除法會造成大量的信息缺失,嚴重降低數據的質量與可信度。缺失值填補通過研究現有數據為每個缺失位置找到一個盡可能合理的替代值,既可以保持原始數據集的規模,又能夠保留不完整樣本中現有數據所攜帶的信息,從而為后續研究提供更好的支持。
缺失值的填補方法大致可分為基于統計學的填補方法和基于機器學習的填補方法。基于統計學的缺失值填補方法主要包含均指填補、回歸填補等較為傳統的填補方法,受到廣泛的研究與關注。隨著近年來數據集規模的不斷增大,鑒于機器學習算法在處理大規模數據時具備良好的表現,將其應用于數據填補工作具有重要的現實意義。常見的基于機器學習的缺失值填補方法包括K最近鄰填補法、基于聚類的填補方法和基于神經網絡的填補方法等。這些方法在填補過程中充分利用完整樣本和不完整樣本中存在的屬性,可取得高精度的填補結果。目前,缺失值填補的應用范圍基本覆蓋所有基于數據的科學研究與應用領域,為醫療、交通、金融、環境、工業等領域提供了切實的幫助。在大數據時代,數據缺失將成為更多行業和領域所面臨的問題,缺失值填補的研究也將具備更加重要的現實意義。