- 現代決策樹模型及其編程實踐:從傳統決策樹到深度決策樹
- 黃智瀕編著
- 1613字
- 2022-08-12 16:11:21
1.4 決策樹的可解釋性
什么是可解釋性?2017年ICML Tutorial將其定義為向人類給出解釋的過程(interpretation is the process of giving explanations to human)。從數據中發現知識或解決問題的過程中,只要是能夠提供關于數據或模型的可以理解的信息,有助于我們更充分地發現知識、理解問題和解決問題的方法,都可以歸類為可解釋性方法。如果按照可解釋性方法的過程進行劃分,可以劃分為三個大類。
1. 在建模之前的可解釋性方法
這一類方法主要涉及一些數據預處理或數據展示的方法。在建模之前的可解釋性方法的關鍵在于幫助我們迅速而全面地了解數據分布的特征,從而幫助我們考慮在建模過程中可能面臨的問題并選擇一種最合理的模型來逼近問題所能達到的最優解。數據可視化方法就是一類非常重要的建模前可解釋性方法。還有一類比較重要的方法是探索性質的數據分析(比如MMD-critic方法),這可以幫助我們更好地理解數據的分布情況。找到數據中一些具有代表性或者不具代表性的樣本。
2. 建立本身具備可解釋性的模型
這種模型大概可以分為以下幾種:基于規則的(rule-based)方法,基于單個特征的(per-feature-based)方法,基于實例的(case-based)方法,稀疏性(sparsity)方法,單調性(monotonicity)方法。
●基于規則的方法:比如經典的決策樹模型,這類模型中的任何一個決策都可以對應到一個邏輯規則表示。但當規則表示過多或者原始的特征本身就不是特別好解釋的時候,基于規則的方法有時候也不太適用。
●基于單個特征的方法:主要是一些非常經典的線性模型,比如線性回歸、邏輯回歸、廣義線性回歸、廣義加性模型等。
●基于實例的方法:主要是通過一些代表性的樣本來解釋聚類/分類結果的方法,比如貝葉斯實例模型(Bayesian Case Model,BCM)。基于實例的方法的局限在于,可能挑出來的樣本不具有代表性,或者可能會有過度泛化的傾向。
●基于稀疏性的方法:主要是利用信息的稀疏性特質,將模型盡可能地簡化表示,比如圖稀疏性的LDA方法。
●基于單調性的方法:在很多機器學習問題中,有一些輸入和輸出之間存在正相關/負相關關系,如果在模型訓練中可以找出這種單調性的關系,就可以使模型具有更高的可解釋性。比如醫生對患特定疾病的概率的估計主要由一些與該疾病相關聯的高風險因素決定,找出單調性關系就可以幫助我們識別這些高風險因素。
3. 在建模之后使用可解釋性方法對模型做出解釋
主要是針對具有黑箱性質的深度學習模型而言,分為以下幾類:隱層分析方法,模擬/代理模型,敏感性分析方法。
在現代機器學習算法中,可解釋性與準確度難以兩全其美。深度學習準確度最高,同時可解釋性最低。我們雖然知道神經網絡在“做什么”,但我們對“怎么做、為何做”幾乎一無所知。圖1.5展示了常見的機器學習模型的預測準確率與可解釋性之間的平衡。其中X軸為可解釋性(explain ability),Y軸為預測準確率(prediction accuracy)。從圖1.5中可以看出,決策樹的可解釋性最高,然而預測準確率卻最低。但經驗告訴我們,如果遇上ImageNet這一級別的數據,其性能還是遠遠比不上神經網絡。“預測準確率”和“可解釋性”這對“魚”和“熊掌”要如何兼得?是把二者結合起來嗎?這將是第5章要討論的深度決策樹,到時將回答這一問題。

圖1.5 各類機器學習模型的可解釋性和預測準確率
決策樹易于理解且可解釋性強,能夠在中等規模數據上以低難度獲得較好的模型。決策樹可能是最具解釋性的預測模型。它們的if-then決策規則結構在語義上類似于自然語言和人類思考的方式,前提是條件是由可理解的特征構建的,條件的長度很短(少量〈特征,值〉對的組合),并且沒有太多的規則。編寫if-then規則是非常自然的。
例如,如圖1.6所示,這個決策樹不只是給出輸入數據x的預測結果(是“超級漢堡”還是“華夫薯條”),還會輸出一系列導致最終預測的中間決策。我們可以對這些中間決策進行驗證或質疑。

圖1.6 快餐店判定食物類別的決策樹
想象一下,使用一種算法來學習預測食物是“漢堡”“超級漢堡”“熱狗”“卷卷薯條”還是“華夫薯條”的決策規則。這個模型得出的一個決策規則可能是:如果食物x有小面包,并且有香腸,那么它就是熱狗。更正式的說法是:IF 小面包==YES AND 香腸==YES,THEN value=熱狗。