官术网_书友最值得收藏!

2.2.5 CART回歸決策樹的特征和分割點選擇準則

CART分類樹采用基尼指數最小化準則或基尼增益最大化原則,而CART回歸樹常用均方誤差(Mean Squared Error,MSE或L2)最小化準則作為特征和分割點的選擇方法。

事實上,對于回歸樹來說,常見的三種不純度測量方法是[假設預測的均值為m,中位數為median(ym)]:

●均方誤差最小化方法,即最小二乘法。這種方法類似于線性模型中的最小二乘法。分割的選擇是為了最小化每個節點中觀測值和平均值之間的誤差平方和。該方法將節點的預測值設置為ym

●最小平均絕對誤差(Mean Absolute Error,MAE或L1)。這種方法最小化一個節點內平均數與中位數的絕對偏差。與最小二乘法相比,它的優點是對離群值不那么敏感,并提供一個更穩健的模型。缺點是在處理包含大量零值的數據集時不敏感。該方法將節點的預測值設置為median(ym)。

●最小半泊松偏差(half Poisson deviance)。該方法將節點的預測值設置為m

主站蜘蛛池模板: 图木舒克市| 吴旗县| 略阳县| 河北区| 临沭县| 休宁县| 元江| 桦甸市| 海丰县| 莆田市| 胶州市| 万山特区| 二连浩特市| 南京市| 临城县| 广宗县| 华坪县| 平度市| 珠海市| 静安区| 呈贡县| 当阳市| 鄢陵县| 博客| 广饶县| 沙坪坝区| 苏州市| 察隅县| 邵武市| 普定县| 巫溪县| 安平县| 河北区| 普定县| 营山县| 东方市| 广昌县| 蓬溪县| 白城市| 叶城县| 德钦县|