- 深度學習與大模型基礎
- 段小手
- 5477字
- 2025-03-27 18:19:08
1.1 深度學習的前世今生
可能許多讀者都會以為深度學習是最近幾年才出現的。其實它的歷史可以追溯到20世紀40年代, 只不過因為它曾經被冷落、換了無數個名字, 所以才沒那么出名。這個領域就像一個藝人, 經歷了各種改頭換面, 最后才開始走紅。
深度學習這個領域的歷史, 就像一個人經歷了三次浪潮。第一次是在20世紀四五十年代, 它還很稚嫩, 只不過藏在“控制論”里, 像小朋友玩捉迷藏。第二次則是在20世紀八九十年代, 深度學習變成了一個抽象概念——聯結主義, 背起來比說唱還難。第三次是在2006年, 它真正以“深度學習”之名復出, 如同一個重歸江湖的大佬, 就像圖1-1所示的這樣。

圖1-1 從控制論到聯結主義, 再到深度學習
深度學習是機器學習的一個重要分支, 它專注于利用多層網絡組合的原理來提取和表示數據的特征, 這一原理恰好與神經科學中的某些觀點相契合。深度學習通過構建復雜的神經網絡模型, 能夠捕捉數據中的復雜模式和關系, 從而實現更高級別的學習和推理。
1.1.1 神經科學的啟發
現代深度學習最早的前身, 其實從神經科學角度切入的簡單線性模型。它們就像一群小學生, 用x1 x2 …… xn來試圖理解復雜的世界, 并把它們和輸出y聯系起來。這些模型希望通過學習一組權重w1 w2 …… wn 來計算它們的輸出f x w =x1w1+……+xnwn。聽起來就像一群勤奮的小學生在認真學習數學。第一波神經網絡研究浪潮被稱為“控制論”, 讓人感覺充滿了掌控一切的力量。
McCulloch-Pitts神經元是腦功能的早期模型, 好比是神經科學領域里的老前輩。這個線性模型可以通過檢測函數f x w 的正負來區分兩種不同類別的輸入。當然啦, 為了讓模型輸出正確的類別, 它的權重需要被設置得恰到好處。而這些權重, 只能靠操作員精心設置! 后來, 在20世紀50年代, 感知機 ( Frank Rosenblatt于1957年提出) 出現了, 它可以根據每個類別的輸入樣本來自動學習權重。同時, 自適應線性單元 ( Adaptive Linear Element, ADALINE) 單純地返回函數f x 本身的值, 以便預測實數, 并且它還可以通過數據學習如何進行這些預測。

圖1-2 學習算法, 就像是往煎餅馃子里逐步添加調料, 讓它越來越好吃
這些簡單的學習算法就像路邊攤上的小吃, 雖然看似普通卻大大影響了機器學習的現代景象。就像我們在煎餅馃子里加點雞蛋、火腿等調料一樣, 用于調節ADALINE權重的訓練算法也進行了一些改進, 被稱為隨機梯度下降。這種算法仍然是當今深度學習的主要訓練算法, 它能夠非常高效地訓練模型, 如圖1-2所示。
就好像感知機和ADALINE中使用的函數f x w 一樣, 線性模型也是機器學習中非常重要的一個模型。雖然在許多情況下, 我們需要對這些模型進行改良和調整(就像我們在做菜時會根據口味加入不同的佐料一樣), 但是它們仍然是目前最廣泛使用的機器學習模型。就像一道基礎菜肴一樣, 線性模型為我們提供了一個強大的基礎, 可以用來解決各種各樣的問題, 比如預測房價、股票走勢等。雖然有時候需要進行改進或升級, 但是線性模型對于機器學習的發展起到了至關重要的作用。
線性模型雖然是機器學習中最廣泛應用的模型之一, 但也存在著很多局限性。其中最典型的就是無法學習異或 ( XOR) 函數, 這種情況被稱為“線性不可分” 。換句話說, 線性模型無法解決某些非線性問題, 就像我們無法用筷子喝湯一樣。當觀察到線性模型存在這種缺陷時, 批評者們對受生物學啟發的學習產生了抵觸, 這導致了神經網絡浪潮的第一次大衰退。
不過, 隨著時間的推移和技術的進步, 人們又開始重新關注神經網絡, 并且開發出了一些能夠克服這些局限性的新算法和模型, 讓我們能夠更好地解決復雜的問題, 就像我們學會了使用不同類型的餐具來吃不同的食物一樣。
可能很多剛開始接觸深度學習的讀者都很崇尚神經科學——畢竟它可是深度學習研究的“靈感大本營”。但是事實上, 神經科學在深度學習里的作用已經被削弱了。原因是我們根本沒法從大腦里獲取足夠的信息來指導深度學習的研究! 想要深入理解大腦對算法的使用原理, 我們至少需要監測數千個相鄰的神經元同時活動的情況。可是現在我們連這點都做不到, 更別提去理解大腦最基礎、最深入研究的部分了。
但是, 神經科學是深度學習解決各種任務的理論支持。有些神經學家甚至把雪貂的大腦重新連接, 讓它們用聽覺處理區域去“看”東西, 結果發現它們真的可以學會這個技能。這說明大多數哺乳動物的大腦可以用同一種算法來解決各種不同的任務。在此之前, 機器學習研究都比較分散, 研究人員各自在自然語言處理、計算機視覺、運動規劃和語音識別等領域里搞研究。但是現在, 深度學習研究團體卻很常見地同時研究許多甚至所有這些應用領域。所以說, 神經科學可是個“大忙人”!
我們可以從神經科學中汲取一些有用的靈感。比如說, 大腦里神經元之間相互作用的計算方式啟發了我們實現“只要會算就能變聰明”的目標。還有一個叫“新認知機”的東西, 它模仿哺乳動物視覺系統的結構, 成功地搭建了一個超級強大的圖片處理模型——這后來甚至成了卷積神經網絡的基礎。不過, 現在大多數神經網絡都是基于“整流線性單元”這個名字很高大上的神經單元模型的。當然, 最早的那個“原始認知機”更加復雜, 但現在的版本吸收了各種思想, 有的來自工程界、有的來自神經科學領域, 形成了一種更加簡化但同樣有效的模型。雖然神經科學對于我們的靈感十分重要, 但是我們也不必全部照搬, 因為真實的神經元和現代整流線性單元計算起來可是大不一樣! 而且到目前為止, 更接近真實神經網絡的系統并不能直接提升機器學習性能。所以, 我們可以從神經科學中獲得啟示, 但是在訓練這些模型時, 我們也需要仔細斟酌, 不能生搬硬套。
很多媒體總是強調深度學習和大腦的相似性。雖然深度學習研究者比其他機器學習領域的研究者更容易引用大腦作為靈感, 但這并不意味著深度學習就是在模擬大腦! 其實現代深度學習是從好多領域獲取靈感的, 比如數學中的線性代數、概率論、信息論和數值優化等。當然, 有些深度學習的研究者會把神經科學引用作為重要來源, 但也有研究者完全不關心神經科學。就像我們吃飯一樣, 有人喜歡甜的、辣的、咸的, 有人卻只管它好不好吃。所以, 深度學習并不是非得模仿大腦才可以。
注意: 有些學者也在研究大腦的算法層面, 也就是所謂的計算神經科學。別把它和深度學習搞混了, 雖然它們有時候會互相研究, 但它們還是兩個不同的領域。深度學習主要關注如何讓計算機變得更聰明, 而計算神經科學則致力于模擬大腦神經元的工作原理。簡單來說, 前者是教計算機怎么學習, 后者是教我們怎么搞懂大腦在想什么。
1.1.2 聯結主義的興起
在20世紀80年代, 神經網絡研究的第二次浪潮出現了, 它就像一條激流, 帶來了聯結主義和并行分布處理的風潮。聯結主義和認知科學差不多, 都是融合多個層次的跨領域思維方式。早前的認知科學家主要考慮符號推理模型, 這種模型雖然很受歡迎, 但是真的難以用來解釋大腦是如何運作的。于是, 聯結主義者開始深入研究基于神經系統實現的認知模型, 在心理學家Donald Hebb的工作中找到了很多復蘇的靈感。
聯結主義理論的中心思想是, 當大量簡單的計算單元相互連接時, 就能夠實現智能行為。這一點也同樣適用于人類身體內的神經元。神經元是人類神經系統中最基本的組成部分, 它們通過神經元軸突和樹突之間的連接進行通信。神經元的數量非常龐大, 而它們的相互連接也非常復雜。這種神經元之間錯綜復雜的連接方式可以被看作一種網絡, 它使大腦能夠執行各種不同的任務。
聯結主義的另一個核心概念是學習與記憶。神經元之間的連接可以通過反復使用而變得更加強壯, 從而使其更容易激活。這就是我們所說的記憶。此外, 神經元之間的連接還可以自適應地進行調整, 以適應新信息的輸入, 這就是學習。因此, 聯結主義被廣泛應用于人工智能領域, 其目的是模仿人類大腦的運作方式, 讓計算機能夠像人類一樣進行學習和記憶。
用生活中常見的例子來解釋, 就像家里的電線一樣, 連接起來才能點亮更多的燈泡, 讓房間更加明亮, 如圖1-3所示。神經元連接起來, 也可以產生智能行為。

圖1-3 聯結主義的思想, 就像是用電線把多個燈泡連起來一樣
雖然聯結主義是20世紀80年代的一個老話題, 不過別小瞧這個“老古董” , 它的幾個關鍵概念在今天的深度學習中還是非常重要的。其中有一個概念叫作“分布式表示”, 就是要讓系統對每一個輸入都用多個特征表示, 并且每個特征都應該參與到多個可能輸入的表示。簡單來說, 就像我們在分辨紅色、綠色或藍色的挖掘機、潛水艇和手電筒時, 用了分布式表示法把顏色和對象身份描述分開, 這樣就只需要6 個神經元而不是9個。
而說到聯結主義, 就不得不提起另一個概念——反向傳播算法。深度神經網絡的反向傳播算法就像是一位超級保姆, 無論你要做什么事情, 它都能為你提供全程指導和幫助。雖然這個算法曾經不太受歡迎, 但現在它已經成為訓練深度學習模型的“金牌教練”, 因為它可以為模型提供完美的訓練路線和理想的參數調整方案。就像你要學習如何打籃球, 雖然你可能會犯錯、跑偏, 但是有一位好的教練帶領你, 你就能更快地進步, 成為一個出色的球員。同樣地, 反向傳播算法可以幫助深度學習模型更好地理解數據, 找到最優的信息表達方式, 從而提高準確性和穩定性。所以, 要想成為一名深度學習大師, 掌握反向傳播算法是必備的條件。
到了20世紀90年代, 使用神經網絡進行序列建模取得了重要進展, 例如大名鼎鼎的長短期記憶網絡。長短期記憶網絡 ( Long Short-Term Memory, LSTM) 聽起來好像是一位超級記憶高手。例如, 你在上學時要背誦很多單詞和公式, 但總有一些東西你不容易記住。現在, LSTM就像你的“小助理”一樣, 可以幫你輕松地記住這些難以理解的概念。雖然之前研究人員遇到了一些根本性數學難題, 但是LSTM網絡出現了, 它可以記住過去發生的事情, 并預測未來可能發生的事情, 就像是你在回憶過去、計劃未來一樣。所以, 如果你還在為記憶力差而苦惱, 不妨讓LSTM來當一名“私人助理” , 相信它一定會讓你的記憶力提升到一個新的水平。
在當時, 許多基于神經網絡和其他AI技術的創業公司爭先恐后地尋求投資, 它們的野心非常大, 但卻不夠實際。因此, 當這些不合理的期望沒有被實現時, 投資者感到了失望。與此同時, 機器學習的其他領域卻取得了長足的進步, 比如核方法和圖模型都在很多重要任務上實現了很好的效果。這就像是神經網絡半路跌倒了, 而核方法和圖模型卻順利地走上了巔峰。所以, 神經網絡浪潮的第二次衰退就這樣開始了, 并且一直持續到2007年。也許這就是科技界的殘酷現實, 有時候即便再努力, 也可能會被其他更優秀的技術擊敗。
即便如此, 神經網絡也還是在一些任務上表現得越來越好。圖靈獎得主LeCun和Ben-gio都發表了令人印象深刻的論文。加拿大高級研究所 ( CIFAR ) 還有個很厲害的計劃, 叫作神經計算和自適應感知 ( NCAP) , 可以幫助維持神經網絡研究, 他們聯合了多倫多大學、蒙特利爾大學和紐約大學的機器學習研究小組, 領頭的分別是Geoffrey Hinton、Yoshua Bengio和Yann LeCun。這個團隊還有神經科學家、人類和計算機視覺專家, 可謂是匯聚了各行各業的精英。
當我們面對一道看似很難的數學題時, 可能會望而卻步。人們普遍認為, 和解一道數學難題一樣, 深度神經網絡也很難訓練, 一時間不知道如何下手。但是, 事實上, 這道題可能只是看起來有些棘手, 它并不是無解之謎, 深度神經網絡也不是不能訓練。就像20世紀80年代存在的算法一樣, 它們雖然早已問世, 但直到2006年前后才經過充分的實驗, 真正地展現出其威力。或許, 深度神經網絡也一樣, 只是因為計算代價太高, 以至于我們需要更強大的硬件來進行足夠的實驗。
1.1.3 大數據推動深度學習發展
到了2006年, 出現了一個叫作深度信念網絡的神經網絡, 它的訓練方法被稱為貪婪逐層預訓練。這種方法非常有效, 可以幫助我們訓練比以前更深的神經網絡。很多研究小組都發現了同樣的策略, 并將其應用于各種不同類型的深度網絡。這些神經網絡已經超越了其他機器學習技術和手工設計功能的AI系統。當然, 在監督學習和使用大型標注數據集方面, 它們仍然有很大的優化空間。但是隨著時間的推移, 它們也變得更加智能, 更加優秀。
大量的數據是深度學習算法發展的基礎。深度學習算法需要大量的數據來訓練模型, 從而提高模型的準確性和魯棒性。這些數據可以是圖片、文本、音頻等各種形式的數據。
隨著互聯網和移動設備的普及, 我們現在可以輕松地搜集和存儲海量數據。同時, 云計算技術的發展也使得處理這些大量數據變得更加容易, 這為深度學習算法的廣泛應用提供了支持。

圖1-4 深度學習需要大量數據和反復訓練, 就像我們練習打籃球一樣
舉個例子來說, 就好比你在生活中學習一門新技能。你想要學會打籃球, 開始的時候可能會看一些教學視頻, 聽教練講解基本動作。但是要想真正掌握籃球技術, 則需要反復練習和不斷調整。同樣地, 深度學習算法也需要大量的數據和反復的訓練才能具備良好的性能, 就像圖1-4所示的這樣。
雖然以前也有深度學習算法, 但是并沒有現在這么流行。那時候, 用深度學習來解決實際問題被視為一種高級黑科技, 只有專家才能搞得定。而現在, 隨著數據越來越多, 深度學習的技巧也越來越容易掌握了。就好比最開始學籃球, 你需要掌握的技巧很多, 但隨著練習的不斷進行, 這些技巧也逐漸變得簡單明了。
現在, 我們的生活越來越數字化, 幾乎所有的活動都離不開計算機, 這自然也導致產生了越來越多的數據。這些數據記錄了我們的方方面面, 可以用于機器學習的數據集也因此越來越大。這就像你天天練習籃球, 記錄下每一次的進步和改善, 最終可以形成一個龐大的技術庫。有了這些數據, 深度學習算法的表現也會越來越優秀, 甚至能夠達到人類的水平。
當然, 要想讓深度學習在更小的數據集上獲得成功, 還需要研究如何通過無監督學習或半監督學習充分利用大量的未標注樣本。這就好比你練籃球時, 可能教練不在身邊, 你只能自己摸索, 并且借助于其他球員的經驗和技巧。總之, 隨著數據規模的不斷擴大和技術的不斷提升, 相信深度學習算法在未來一定會發揮更加重要的作用。