官术网_书友最值得收藏!

2.1.1 缺失值的處理

實踐中收集的大多數數據集都可能包含缺失值。出現這種情況的原因可能是測量設備故障、數據收集過程中實驗條件或環境的變化、人為錯誤以及故意錯誤(例如,回答者不愿意泄露信息)等。

如果出現缺失值的樣本數較少,則可能會省略這些樣本。但是,如果樣本中有大量的特征屬性,每個特征屬性即使出現一小部分缺失值,也會影響很多樣本。例如,在30個特征屬性的情況下,如果只有5%的數據缺失(假設在目標和特征屬性間隨機和獨立地傳播),則幾乎80%的樣本將不得不被忽略,因為0.9530=0.215。

另一種處理缺失值的替代方法是,根據樣本中該特征屬性的其他值,將缺失值替換為估算值。例如,可以用所有樣本中該特征屬性的平均值替換該特征屬性的缺失值。但是,使用此類技術將導致樣本數據集缺乏變化,從而引入偏差。

主站蜘蛛池模板: 开封市| 钦州市| 阜阳市| 永济市| 平利县| 尉犁县| 惠安县| 广元市| 奉贤区| 钟山县| 麻江县| 黎川县| 永昌县| 安图县| 璧山县| 宣恩县| 江津市| 青海省| 宜兴市| 星子县| 宜城市| 油尖旺区| 个旧市| 英德市| 临颍县| 鸡东县| 蓝田县| 晋州市| 理塘县| 南康市| 达州市| 张掖市| 玉山县| 武鸣县| 肇源县| 伊宁县| 镇赉县| 鹤峰县| 抚宁县| 宣威市| 永丰县|