- 現代決策樹模型及其編程實踐:從傳統決策樹到深度決策樹
- 黃智瀕編著
- 361字
- 2022-08-12 16:11:30
2.2.5 CART回歸決策樹的特征和分割點選擇準則
CART分類樹采用基尼指數最小化準則或基尼增益最大化原則,而CART回歸樹常用均方誤差(Mean Squared Error,MSE或L2)最小化準則作為特征和分割點的選擇方法。
事實上,對于回歸樹來說,常見的三種不純度測量方法是[假設預測的均值為m,中位數為median(ym)]:
●均方誤差最小化方法,即最小二乘法。這種方法類似于線性模型中的最小二乘法。分割的選擇是為了最小化每個節點中觀測值和平均值之間的誤差平方和。該方法將節點的預測值設置為ym。

●最小平均絕對誤差(Mean Absolute Error,MAE或L1)。這種方法最小化一個節點內平均數與中位數的絕對偏差。與最小二乘法相比,它的優點是對離群值不那么敏感,并提供一個更穩健的模型。缺點是在處理包含大量零值的數據集時不敏感。該方法將節點的預測值設置為median(ym)。

●最小半泊松偏差(half Poisson deviance)。該方法將節點的預測值設置為m。
