- 基于機器學習的數據缺失值填補:理論與方法
- 賴曉晨 張立勇 劉輝 吳霞
- 338字
- 2020-09-24 10:12:24
第3章 缺失值填補方法
在大數據時代,缺失值填補方法因其重要的實用價值而受到廣泛關注。研究者從多種角度出發,提出了眾多的缺失值填補方法,并取得了十分豐碩的研究成果。鑒于各方法解決數據缺失問題的出發點存在差異,缺失值填補的模型結構和基礎理論也不盡相同,一些常見的模型和理論包括:統計學模型、機器學習模型、極大似然原理、證據理論等。為了對缺失值填補方法形成更清晰的認知,本章將對常用的缺失值填補方法進行系統性介紹,大致包括4個方面:基于樣本間相似度的填補方法、基于屬性間相關性的填補方法、基于參數估計的期望最大化填補法以及針對缺失數據不確定性的填補方法。
目前,各類缺失值填補方法已廣泛應用于各領域的研究與實踐中,對其進行系統的認知將為缺失值填補方法設計和不完整數據分析打下重要的基礎。