1.4.1 歷史大事件概述
2015年,曼寧提到深度學習“海嘯”:“在過去的幾年中,深度學習的浪潮在計算語言學領域不斷涌現,但在2015年,深度學習秉海嘯之勢涌入自然語言處理(natural language processing)的會議。”深度學習不僅在NLP領域,還在計算機視覺(computer vision)等其他人工智能領域占據著十分重要的地位。憑借著一代又一代科研工作者的努力和天才的創新型思想,神經網絡發展至深度學習時代。神經網絡的發展歷史主要包括起源、興盛、深度學習這三個階段。
1.起源
20世紀50年代至20世紀80年代是傳統機器學習方法的年代。在這個階段,人工智能的研究工作從傳統線性回歸逐漸過渡到監督學習。傳統線性回歸是指直接求解合適的平面去擬合數據,監督學習則是利用訓練集和測試集去“學習”一個平面來擬合數據。1943年,McCulloch-Pitts神經元模型(簡稱MP神經元模型)在論文《神經活動中所蘊含的思想的邏輯活動》中被首次提出,它利用數學模型簡化了生物學神經元,但并不具有“學習”的功能。該模型對后續研究有非常深遠的影響,至今幾乎所有的神經網絡,包括深度學習模型,都仍然采用最基本的MP模型架構。MP神經元的出現標志著人工神經網絡的誕生。
1949年,在《行為的組織》一書中,心理學家Hebb對神經元之間連接強度的變化規則進行了分析,并基于此提出了著名的Hebb學習規則:如果兩個神經元在同一時刻被激發,則其之間的聯系應該被強化。后人基于這一原理,對Hebb學習規則進行了補充,提出了擴展的Hebb學習規則:若神經元A和神經元B之間有連接,當神經元A被激發的同時,神經元B也被激發,則其之間的連接強度應該增強;但若神經元A被激發的時候,神經元B未被激發,則其之間的連接強度應當減弱。繼Hebb學習規則之后,神經元的有監督Delta學習規則被提出,用以解決在輸入/輸出已知的情況下神經元權值的學習問題。Delta學習規則用于監督學習過程,通過對連接權值進行不斷調整,使神經元的實際輸出和期望的輸出達到一致,從而使得學習過程收斂。
1958年,Rosenblatt等人成功研制出了代號為Mark I的感知機(percep-tron),這是歷史上首個將神經網絡的學習功能用于模式識別的裝置,標志著神經網絡進入了新的發展階段。感知機引發了神經網絡歷史發展中的第一個高潮。感知機的主要思路是通過最小化誤分類損失函數來優化分類超平面,從而對新的實例實現準確預測。假設輸入特征向量是一個n維的特征向量,輸出的類標空間是二維的,即只有兩個類,標號分別為+1和-1。即輸入特征向量為x∈?n,輸出類標為y∈{+1,-1},則感知機模型為
y=f(x)=Sgn(wx+b),
其中的f函數的定義有多種,根據不同的定義,有不同的優化方法來優化分離超平面,從而對新的實例實現準確預測。通過已經存在的樣本來最小化誤分類的損失,求出可以用于分類的超平面后,即可使用新的實例來進行驗證。
從感知機的提出到1969年之間,出現了神經網絡研究的第一個高潮。此間,人們對神經網絡甚至人工智能抱有巨大的信心。然而1969年,Minsky和Papert所著的《感知機》一書出版,他們從數學的角度證明了單層神經網絡(即感知機)具有有限的功能,甚至無法解決最簡單的“異或”邏輯問題。這給當時神經網絡感知機方向的研究潑了一盆冷水,美國和蘇聯在此后很長一段時間內也未資助過神經網絡方面的研究工作。此后很長一段時間內神經網絡的研究處在低迷期,稱作神經網絡的寒冬(AI winter)。
到了20世紀80年代,關于神經網絡的研究慢慢開始復蘇。1982年,Hop-field等人提出一種名為Hopfield的神經網絡,解決了非多項式復雜度的旅行商問題。Hopfield網絡在一定程度上使神經網絡的研究復蘇。1983年,Sejnowski和Hinton首次提出“隱藏單元”的概念,并基于此設計出玻爾茲曼機(Boltz-mann Machine,BM)。玻爾茲曼機是一種由隨機神經元全連接組成的反饋神經網絡,包含一個可見層和一個隱藏層。網絡中神經元的輸出只有兩種狀態(未激活和激活,分別用二進制0和1表示),其取值根據概率統計規則決定。但玻爾茲曼機存在著訓練和學習時間過長的問題,所以影響了它的實際應用。此外,難以準確計算玻爾茲曼機表示的分布,得到服從玻爾茲曼機所表示分布的隨機樣本也很困難。基于以上原因,人們對玻爾茲曼機進行了改進,提出了限制玻爾茲曼機(Restricted Boltzmann Machine,RBM)。相比于玻爾茲曼機,RBM的網絡結構中層內神經元之間沒有連接,盡管RBM所表示的分布仍然無法有效計算,但可以通過Gibbs采樣得到服從RBM所表示分布的隨機樣本。2006年,Hinton提出了深度信念網絡(Deep Belief Network,DBN),以RBM為基本組成單元,這是人類歷史上第一個深度學習網絡,同時也是目前深度學習的主要框架之一。這一階段的神經網絡已經從起初的單層結構擴展到了雙層,隱藏層的出現使得網絡具有更強的數據表示能力。
1974年,Werbos在他的博士論文里提出了用于神經網絡學習的反向傳播(Back Propagation,BP)算法,為多層神經網絡的學習訓練與實現提供了一種切實可行的解決途徑。1986年以Rumelhart和McClelland為首的科學家小組在N ature上發表論文,對多層網絡的基于誤差的反向傳播算法進行了詳盡的分析,進一步推動了BP算法的發展。
1989年,Cybenko、Funahashi、Hornik等人相繼對BP神經網絡的非線性函數逼近性能進行了分析,并證明了對于具有單隱藏層、傳遞函數為Sigmoid的連續型前饋神經網絡可以以任意精度逼近任何復雜的連續映射。為模擬生物神經元的局部響應特性,Broomhead和Lowe于1988年將徑向基函數引入神經網絡的設計中,形成了徑向基函數(Radial Basis Function,RBF)神經網絡。后來,Jackson和Park分別于1989年和1991年對RBF在非線性連續函數上的一致逼近性能進行了論證。Hopfield網絡、玻爾茲曼機和BP算法的發展,引發了神經網絡研究的第二次熱潮。特別是BP算法的發展,將熱潮推到了一個新的高度。
2.興盛
1989年在“Multilayer Feedforward Networks Are Universal Approxima-tors”一文中,作者給出了數學證明,證明多層結構可以使神經網絡在理論上擬合任意函數,包括異或(XOR)等。同年,Yann LeCun和貝爾實驗室的其他研究者將理論用于實際問題,通過利用多層神經網絡和BP算法,成功地識別手寫郵政編碼,并發表了“Back Propagation Applied to Handwritten Zip Code Recognition”一文,為現代神經網絡學習打下了基礎。在Yann LeCun的論文中,除了反向傳播的應用外,還提出了對神經網絡的改進:卷積(convolution)。卷積通過“權值共享”大大加速了神經網絡的學習過程。因此,Yann LeCun也被稱為卷積神經網絡(Convolutional Neural Network,CNN)之父。而“權值共享”的概念早在1986年就被Rumelhart、Hinton和Williams等人詳細論證過。此外,在1980年的“Neurocognitron”一文中,Kunihiko等人也提到了類似的概念,稱之為自編碼器(autoencoder),其結構如圖1.2所示。自編碼器是一種無監督的特征學習網絡,它利用反向傳播算法,讓目標輸出值等于輸入值。對于一個輸入x∈?n,首先將其通過特征映射得到對應的隱藏層表示h∈?m,隱藏層表示接著被投影到輸出層∈?n,并且希望輸出與原始輸入盡可能相等。自編碼器試圖學習一個恒等函數,當隱藏層的數目小于輸入層的數目時可以實現對信號的壓縮表示,獲得對輸入數據有意義的特征表示。通常隱藏層權值矩陣和輸出層權值矩陣互為轉置,這樣大大減少了網絡的參數個數。

圖1.2 自編碼器網絡結構
為了解決出現在自然語言以及音頻處理中的長序列輸入問題,循環神經網絡(Recurrent Neural Network,RNN)應運而生,RNN通過將輸出再一次輸入當前神經元來賦予神經網絡“記憶”能力,使得神經網絡可以處理和記憶序列數據。自80年代BP算法被提出來以后,CNN、自編碼器和RNN相繼得到發展,這為深度學習時代的到來奠定了基礎。
3.深度學習
2000年以來,由于GPU等硬件所提供的算力提升,以及大數據時代的加持,許多神經網絡都在往“更深”的方向發展。深度學習作為機器學習的一個分支,在計算機視覺、自然語言處理等方向大放異彩。深度學習的思想在過去很長一段時間之前已經產生,但當時沒有取得成功的原因主要有兩點:第一,沒有足夠的訓練數據;第二,缺乏高性能的并行計算能力。
ImageNet數據集的產生是深度學習時代具有標志性的事件之一。2009年,華人學者李飛飛和她的團隊在CVPR2009上發表了一篇名為“ImageNet: A Large-Scale Hierarchical Image Database”的論文,并且附帶了數據集。Ima-geNet數據集被廣泛應用于深度學習圖像領域,關于圖像分類、定位、檢測等研究工作大多基于此數據集展開。此外,ImageNet數據集也被用作競賽的標準數據集。2012年,Hinton和他的學生Alex Krizhevsky在參加ImageNet競賽時,把卷積神經網絡深度化,設計出AlexNet網絡,獲得了當年的競賽冠軍。AlexNet的成功引發了人們對深度卷積神經網絡的極大興趣,隨之而來的是更多、更深入的神經網絡的相繼提出。
前文所述的神經網絡可以歸為判別式網絡模型,即對輸入數據進行分類或判別,學習如何區分不同類別并建立有效的決策邊界;而最近十年以來,一類全新的模型——生成式網絡誕生了,生成式網絡致力于學習數據的分布,以便能夠生成新的、與訓練數據相似的樣本。生成式模型的發展經歷了多個關鍵階段,其中三個主要的代表性模型是生成對抗網絡(GAN)、變分自編碼器(VAE)和transformer。生成對抗網絡最早由Ian Goodfellow等人于2014年提出,通過對抗訓練的方式讓生成器和判別器相互競爭,逐漸提高生成器生成逼真樣本的能力。GAN在圖像生成、風格轉換等領域取得了巨大成功,為生成式模型的研究奠定了基礎。變分自編碼器作為另一種生成模型,由Kingma和Welling于2013年提出。VAE以概率圖模型為基礎,通過一個編碼器網絡將輸入數據映射到潛在空間,并在這個潛在空間中進行采樣,從而生成新樣本。
隨著深度學習技術的不斷發展,生成式模型逐漸邁向更大規模、更復雜的模型。Transformer模型的提出推動了大模型的發展,而GPT(生成式預訓練)系列則成為其中的杰出代表,包括GPT-3.5和GPT-4。這些模型通過大規模的預訓練學到通用的語言表示,進而在多個領域展現出強大的生成和表達能力。
4.神經網絡發展的歷史:總結
在此總體回顧整個神經網絡發展的歷史:20世紀40年代是神經網絡研究的萌芽期,這一時期出現了MP網絡、Hebb學習等重要概念;20世紀五六十年代,神經網絡第一個黃金時代到來,學者提出了感知機、ADALINE等,并第一次成功應用于商業;20世紀70年代是神經網絡發展的安靜年代,也稱為“寒冬時代”,但仍有學者堅持研究神經網絡,這一時期出現了聯想記憶模型、自組織映射網等重要研究;20世紀80年代,神經網絡的研究開始復蘇,出現了BP算法、Hopfield網絡、玻爾茲曼機等具有影響力的研究;當下正處于深度神經網絡時代。圖1.3分別標注了神經網絡發展歷史上的一些大事件。不難發現,重大的神經網絡發現通常可以帶起一個輝煌的人工智能時代,使得更多人參與到人工智能的研究當中。而神經網絡局限性的發現,也會迅速讓人工智能領域的熱度退卻。從長遠來看,人工智能的發展離不開對人類智能的模擬,神經網絡則是當下對人類智能最優的模擬之一。因此,盡管有高峰和低谷,作為研究者應該明白的是,對于神經網絡的研究,道阻且長,需要所有研究者共同貢獻自己的聰明才智。

圖1.3 神經網絡發展歷史