官术网_书友最值得收藏!

  • 機器學習
  • 周志華
  • 3678字
  • 2024-12-27 23:26:56

1.5 發展歷程

所謂“知識就是力量”。

1965年,Feigenbaum主持研制了世界上第一個專家系統DENDRAL。

機器學習是人工智能(artificial intelligence)研究發展到一定階段的必然產物。二十世紀五十年代到七十年代初,人工智能研究處于“推理期”,那時人們以為只要能賦予機器邏輯推理能力,機器就能具有智能。這一階段的代表性工作主要有A. Newell和H. Simon的“邏輯理論家”(Logic Theorist)程序以及此后的“通用問題求解”(General Problem Solving)程序等,這些工作在當時取得了令人振奮的結果。例如,“邏輯理論家”程序在1952年證明了著名數學家羅素和懷特海的名著《數學原理》中的38條定理,在1963年證明了全部52條定理,特別值得一提的是,定理2.85甚至比羅素和懷特海證明得更巧妙。A. Newell和H.Simon因為這方面的工作獲得了1975年圖靈獎。然而,隨著研究向前發展,人們逐漸認識到,僅具有邏輯推理能力是遠遠實現不了人工智能的。E. A. Feigenbaum等人認為,要使機器具有智能,就必須設法使機器擁有知識。在他們的倡導下,從二十世紀七十年代中期開始,人工智能研究進入了“知識期”。在這一時期,大量專家系統問世,在很多應用領域取得了大量成果。E. A. Feigenbaum作為“知識工程”之父在1994年獲得圖靈獎。但是,人們逐漸認識到,專家系統面臨“知識工程瓶頸”,簡單地說,就是由人來把知識總結出來再教給計算機是相當困難的。于是,一些學者想到,如果機器自己能夠學習知識該多好!

參見(休息一會兒——小故事:“機器學習”名字的由來)。

事實上,圖靈在1950年關于圖靈測試的文章中,就曾提到了機器學習的可能;二十世紀五十年代初已有機器學習的相關研究,例如A. Samuel著名的跳棋程序。五十年代中后期,基于神經網絡的“連接主義”(connectionism)學習開始出現,代表性工作有F. Rosenblatt的感知機(Perceptron)、B. Widrow的Adaline等。在六七十年代,基于邏輯表示的“符號主義”(symbolism)學習技術蓬勃發展,代表性工作有P. Winston的“結構學習系統”、R. S. Michalski等人的“基于邏輯的歸納學習系統”、E. B. Hunt等人的“概念學習系統”等;以決策理論為基礎的學習技術以及強化學習技術等也得到發展,代表性工作有N. J. Nilson的“學習機器”等;二十多年后紅極一時的統計學習理論的一些奠基性結果也是在這個時期取得的。

IWML后來發展為國際機器學習會議ICML。

1980年夏,在美國卡耐基梅隆大學舉行了第一屆機器學習研討會(IWML);同年,《策略分析與信息系統》連出三期機器學習專輯;1983年,Tioga出版社出版了R. S. Michalski、J. G. Carbonell和T. Mitchell主編的《機器學習:一種人工智能途徑》[Michalski et al., 1983],對當時的機器學習研究工作進行了總結;1986年,第一本機器學習專業期刊Machine Learning創刊;1989年,人工智能領域的權威期刊Artificial Intelligence出版機器學習專輯,刊發了當時一些比較活躍的研究工作,其內容后來出現在J.G.Carbonell主編、MIT出版社1990年的《機器學習:范型與方法》[Carbonell,1990]一書中。總的來看,二十世紀八十年代是機器學習成為一個獨立的學科領域、各種機器學習技術百花初綻的時期。

R. S. Michalski等人[Michalskietal., 1983]把機器學習研究劃分為“從樣例中學習”“在問題求解和規劃中學習”“通過觀察和發現學習”“從指令中學習”等種類;E. A. Feigenbaum等人在著名的《人工智能手冊》(第三卷)[Cohen and Feigenbaum,1983]中,則把機器學習劃分為“機械學習”“示教學習”“類比學習”和“歸納學習”。機械學習亦稱“死記硬背式學習”,即把外界輸入的信息全部記錄下來,在需要時原封不動地取出來使用,這實際上沒有進行真正的學習,僅是在進行信息存儲與檢索;示教學習和類比學習類似于R. S. Michalski等人所說的“從指令中學習”和“通過觀察和發現學習”;歸納學習相當于“從樣例中學習”,即從訓練樣例中歸納出學習結果。二十世紀八十年代以來,被研究最多、應用最廣的是“從樣例中學習”(也就是廣義的歸納學習),它涵蓋了監督學習、無監督學習等,本書大部分內容均屬此范疇。下面我們對這方面主流技術的演進做一個簡單回顧。

參見(第4章 決策樹)。

這時實際是ILP的前身。

參見(第15章 規則學習)。

在二十世紀八十年代,“從樣例中學習”的一大主流是符號主義學習,其代表包括決策樹(decisiontree)和基于邏輯的學習。典型的決策樹學習以信息論為基礎,以信息熵的最小化為目標,直接模擬了人類對概念進行判定的樹形流程?;谶壿嫷膶W習的著名代表是歸納邏輯程序設計(Inductive Logic Programming,簡稱ILP),可看作機器學習與邏輯程序設計的交叉,它使用一階邏輯(即謂詞邏輯)來進行知識表示,通過修改和擴充邏輯表達式(例如Prolog表達式)來完成對數據的歸納。符號主義學習占據主流地位與整個人工智能領域的發展歷程是分不開的。前面說過,人工智能在二十世紀五十到八十年代經歷了“推理期”和“知識期”,在“推理期”人們基于符號知識表示、通過演繹推理技術取得了很大成就,而在“知識期”人們基于符號知識表示、通過獲取和利用領域知識來建立專家系統取得了大量成果,因此,在“學習期”的開始,符號知識表示很自然地受到青睞。事實上,機器學習在二十世紀八十年代正是被視為“解決知識工程瓶頸問題的關鍵”而走上人工智能主舞臺的。決策樹學習技術由于簡單易用,到今天仍是最常用的機器學習技術之一。ILP具有很強的知識表示能力,可以較容易地表達出復雜數據關系,而且領域知識通??煞奖愕赝ㄟ^邏輯表達式進行描述,因此,ILP不僅可利用領域知識輔助學習,還可通過學習對領域知識進行精化和增強;然而,成也蕭何、敗也蕭何,由于表示能力太強,直接導致學習過程面臨的假設空間太大、復雜度極高,因此,問題規模稍大就難以有效進行學習,九十年代中期后這方面的研究相對陷入低潮。

參見(第5章 神經網絡)。

二十世紀九十年代中期之前,“從樣例中學習”的另一主流技術是基于神經網絡的連接主義學習。連接主義學習在二十世紀五十年代取得了大發展,但因為早期的很多人工智能研究者對符號表示有特別偏愛,例如圖靈獎得主H. Simon曾斷言人工智能是研究“對智能行為的符號化建?!?,所以當時連接主義的研究未被納入主流人工智能研究范疇。尤其是連接主義自身也遇到了很大的障礙,正如圖靈獎得主M. Minsky和S. Papert在1969年指出,(當時的)神經網絡只能處理線性分類,甚至對“異或”這么簡單的問題都處理不了。1983年,J. J. Hopfield利用神經網絡求解“流動推銷員問題”這個著名的NP難題取得重大進展,使得連接主義重新受到人們關注。1986年,D. E. Rumelhart等人重新發明了著名的BP算法,產生了深遠影響。與符號主義學習能產生明確的概念表示不同,連接主義學習產生的是“黑箱”模型,因此從知識獲取的角度來看,連接主義學習技術有明顯弱點;然而,由于有BP這樣有效的算法,使得它可以在很多現實問題上發揮作用。事實上,BP一直是被應用得最廣泛的機器學習算法之一。連接主義學習的最大局限是其“試錯性”;簡單地說,其學習過程涉及大量參數,而參數的設置缺乏理論指導,主要靠手工“調參”;夸張一點說,參數調節上失之毫厘,學習結果可能謬以千里。

參見(第6章 支持向量機)。

參見習題(6.5 支持向量回歸)。

二十世紀九十年代中期,“統計學習”(statistical learning)閃亮登場并迅速占據主流舞臺,代表性技術是支持向量機(Support Vector Machine,簡稱SVM)以及更一般的“核方法”(kernel methods)。這方面的研究早在二十世紀六七十年代就已開始,統計學習理論[Vapnik,1998]在那個時期也已打下了基礎,例如V. N. Vapnik在1963年提出了“支持向量”概念,他和A. J. Chervonenkis在1968年提出VC維,在1974年提出了結構風險最小化原則等。但直到九十年代中期統計學習才開始成為機器學習的主流,一方面是由于有效的支持向量機算法在九十年代初才被提出,其優越性能到九十年代中期在文本分類應用中才得以顯現;另一方面,正是在連接主義學習技術的局限性凸顯之后,人們才把目光轉向了以統計學習理論為直接支撐的統計學習技術。事實上,統計學習與連接主義學習有密切的聯系。在支持向量機被普遍接受后,核技巧(kernel trick)被人們用到了機器學習的幾乎每一個角落,核方法也逐漸成為機器學習的基本內容之一。

參見(5.6 深度學習)。

“過擬合”參見(第2章 模型評估與選擇)

有趣的是,二十一世紀初,連接主義學習又卷土重來,掀起了以“深度學習”為名的熱潮。所謂深度學習,狹義地說就是“很多層”的神經網絡。在若干測試和競賽上,尤其是涉及語音、圖像等復雜對象的應用中,深度學習技術取得了優越性能。以往機器學習技術在應用中要取得好性能,對使用者的要求較高;而深度學習技術涉及的模型復雜度非常高,以至于只要下工夫“調參”,把參數調節好,性能往往就好。因此,深度學習雖缺乏嚴格的理論基礎,但它顯著降低了機器學習應用者的門檻,為機器學習技術走向工程實踐帶來了便利。那么,它為什么此時才熱起來呢?有兩個基本原因:數據大了、計算能力強了。深度學習模型擁有大量參數,若數據樣本少,則很容易“過擬合”;如此復雜的模型、如此大的數據樣本,若缺乏強力計算設備,根本無法求解。恰由于人類進入了“大數據時代”,數據儲量與計算設備都有了大發展,才使得連接主義學習技術煥發又一春。有趣的是,神經網絡在二十世紀八十年代中期走紅,與當時Intel x86系列微處理器與內存條技術的廣泛應用所造成的計算能力、數據訪存效率比七十年代有顯著提高不無關聯。深度學習此時的狀況,與彼時的神經網絡何其相似。

需說明的是,機器學習現在已經發展成為一個相當大的學科領域,本節僅是管中窺豹,很多重要技術都沒有談及,耐心的讀者在讀完本書后會有更全面的了解。

主站蜘蛛池模板: 洛川县| 綦江县| 正镶白旗| 大同市| 建湖县| 鞍山市| 沛县| 开封县| 红原县| 镇远县| 六盘水市| 西宁市| 米林县| 平远县| 大埔县| 峡江县| 包头市| 清涧县| 东方市| 惠州市| 交口县| 晋城| 丹巴县| 乌海市| 高青县| 文化| 深圳市| 巩留县| 荣成市| 高台县| 安溪县| 夏邑县| 汶川县| 保山市| 马边| 淮北市| 金湖县| 南通市| 大田县| 铜山县| 塔河县|