1.7 閱讀材料
[Mitchell,1997]是第一本機器學習專門性教材,[Duda et al.,2001;Alpaydin,2004;Flach,2012]都是出色的入門讀物。[Hastie et al.,2009]是很好的進階讀物,[Bishop,2006]也很有參考價值,尤其適合于貝葉斯學習偏好者。[Shalev-Shwartz and Ben-David,2014]則適合于理論偏好者。[Witten et al.,2011]是基于WEKA撰寫的入門讀物,有助于初學者通過WEKA實踐快速掌握常用機器學習算法。
本書1.5和1.6節主要取材于[周志華,2007].《機器學習:一種人工智能途徑》[Michalski et al.,1983]匯集了20位學者撰寫的16篇文章,是機器學習早期最重要的文獻。該書出版后產生了很大反響,Morgan Kaufmann出版社后來分別于1986年和1990年出版了該書的續篇,編為第二卷和第三卷。《人工智能手冊》系列是圖靈獎得主E. A. Feigenbaum 與不同學者合作編寫而成,該書第三卷[Cohen and Feigenbaum,1983]對機器學習進行了討論,是機器學習早期的重要文獻。[Dietterich,1997]對機器學習領域的發展進行了評述和展望。早期的很多文獻在今天仍值得重視,一些閃光的思想在相關技術進步后可能煥發新的活力,例如近來流行的“遷移學習”(transfer learning)[Pan and Yang,2010],恰似“類比學習”(learning by analogy)在統計學習技術大發展后的升級版;紅極一時的“深度學習”(deep learning)在思想上并未顯著超越二十世紀八十年代中后期神經網絡學習的研究。
機器學習中關于概念學習的研究開始很早,從中產生的不少思想對整個領域都有深遠影響。例如作為主流學習技術之一的決策樹學習,就起源于關于概念形成的樹結構研究[Hunt and Hovland,1963]。[Winston,1970]在著名的“積木世界”研究中,將概念學習與基于泛化和特化的搜索過程聯系起來。[Simon and Lea,1974]較早提出了“學習”是在假設空間中搜索的觀點。[Mitchell,1977]稍后提出了版本空間的概念。概念學習中有很多關于規則學習的內容。
奧卡姆剃刀原則主張選擇與經驗觀察一致的最簡單假設,它在自然科學如物理學、天文學等領域中是一個廣為沿用的基礎性原則,例如哥白尼堅持“日心說”的理由之一就是它比托勒密的“地心說”更簡單且符合天文觀測。奧卡姆剃刀在機器學習領域也有很多追隨者[Blumer et al.,1996]。但機器學習中什么是“更簡單的”這個問題一直困擾著研究者們,因此,對奧卡姆剃刀在機器學習領域的作用一直存在著爭議[Webb,1996;Domingos,1999]。需注意的是,奧卡姆剃刀并非科學研究中唯一可行的假設選擇原則,例如古希臘哲學家伊壁鳩魯(公元前341年–前270年)提出的“多釋原則”(principle of multiple explanations),主張保留與經驗觀察一致的所有假設[Asmis,1984],這與集成學習(ensemble learning)方面的研究更加吻合。
機器學習領域最重要的國際學術會議是國際機器學習會議(ICML)、國際神經信息處理系統會議(NIPS)和國際學習理論會議(COLT),重要的區域性會議主要有歐洲機器學習會議(ECML)和亞洲機器學習會議(ACML);最重要的國際學術期刊是Journal of Machine Learning Research和Machine Learning。人工智能領域的重要會議如IJCAI、AAAI以及重要期刊如Artificial Intelligence、Journal of Artificial Intelligence Research,數據挖掘領域的重要會議如KDD、ICDM以及重要期刊如ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery,計算機視覺與模式識別領域的重要會議如CVPR以及重要期刊如IEEE Transactions on PatternAnalysis and Machine Intelligence,神經網絡領域的重要期刊如Neural Computation、IEEE Transactions on Neural Networks and Learning Systems等也經常發表機器學習方面的論文。此外,統計學領域的重要期刊如Annals of Statistics等也常有關于統計學習方面的理論文章發表。
國內不少書籍包含機器學習方面的內容,例如[陸汝鈐,1996]。[李航,2012]是以統計學習為主題的讀物。國內機器學習領域最主要的活動是兩年一次的中國機器學習大會(CCML)以及每年舉行的“機器學習及其應用”研討會(MLA);很多學術刊物都經常刊登有關機器學習的論文。