2.6 閱讀材料
自助采樣法在機器學習中有重要用途,[Efron and Tibshirani,1993]對此進行了詳細的討論。
ROC曲線在二十世紀八十年代后期被引入機器學習[Spackman,1989],AUC則是從九十年代中期起在機器學習領域廣為使用[Bradley,1997],但利用ROC曲線下面積來評價模型期望性能的做法在醫療檢測中早已有之[Hanleyand McNeil,1983]。[Hand and Till,2001]將ROC曲線從二分類任務推廣到多分類任務。[Fawcett,2006]綜述了ROC曲線的用途。
[Drummond and Holte,2006] 發明了代價曲線。需說明的是,機器學習過程涉及許多類型的代價,除了誤分類代價,還有測試代價、標記代價、屬性代價等,即便僅考慮誤分類代價,仍可進一步劃分為基于類別的誤分類代價以及基于樣本的誤分類代價。代價敏感學習(cost-sensitive learning)[Elkan,2001;Zhou and Liu,2006]專門研究非均等代價下的學習。
[Dietterich,1998]指出了常規k折交叉驗證法存在的風險,并提出了5×2交叉驗證法。[Demsar,2006]討論了對多個算法進行比較檢驗的方法。
[Geman et al.,1992]針對回歸任務給出了偏差–方差–協方差分解(biasvariance-covariance decomposition),后來被簡稱為偏差–方差分解。雖然偏差和方差確實反映了各類學習任務內在的誤差決定因素,但式(2.42)這樣優美的形式僅在基于均方誤差的回歸任務中得以推導出。對分類任務,由于0/1損失函數的跳變性,理論上推導出偏差–方差分解很困難。已有多種方法可通過實驗對偏差和方差進行估計[Kong and Dietterich, 1995; Kohavi and Wolpert,1996; Breiman, 1996; Friedman, 1997; Domingos, 2000].