- 破解深度學習(基礎篇):模型算法與實現
- 瞿煒 李力 楊潔
- 1564字
- 2024-11-14 15:56:58
1.2 主要核心模型
面對不同的數據和應用領域,深度學習在基礎網絡結構之上演變出了各種專用模型,它們的主要差異體現在網絡結構。其中主流的模型包括三類:卷積神經網絡、循環神經網絡和注意力神經網絡。這三類模型各有特點,分別完成不同的任務。就好像有的人觀察力強,可以當偵探;有的人表達力強,適合當老師;有的人戰略眼光長遠,適合當領導。本書將在后文以及《破解深度學習(核心篇):模型算法與實現》中詳細介紹這三大類深度模型及其各種典型變體。
1.2.1 卷積神經網絡
卷積神經網絡(convolution neural network,CNN)是人臉識別、自動駕駛汽車等大多數計算機視覺應用的支柱。它就像個偵探,拿著放大鏡對圖像進行逐行掃描。2012年,多倫多大學研究人員在著名的ImageNet挑戰賽中使用基于CNN的模型(AlexNet),以16.4%的錯誤率獲勝,受到學術界和業界的關注,由此引發了人工智能(AI)新的熱潮。典型CNN結構示意及其發展時間線如圖1-4所示。
第7章將從全連接層的局限開始講起,詳細介紹圖像卷積、卷積層、池化層等網絡結構技術細節和代碼實現,使讀者對CNN有全面深入的了解。在《破解深度學習(核心篇):模型算法與實現》中,我們會沿著時間線,詳細介紹從20世紀末到現在主流的CNN變體,包括AlexNet、VGG、GoogLeNet、ResNet、DenseNet等模型。

圖1-4 典型CNN結構示意及其發展時間線
1.2.2 循環神經網絡
如同CNN專門用于處理圖像這種二維數據信息,循環神經網絡(recurrent neural network,RNN)是用于處理序列信息(比如股票價格、聲音序列、文字序列等)的一種特殊結構的神經網絡。它包含了記憶單元,能夠根據歷史信息推斷當前信息。關于如何訓練序列神經網絡以及如何解決長期依賴問題,在第8章將提供詳細解答。
除了經典的RNN,我們將在《破解深度學習(核心篇):模型算法與實現》介紹深度RNN、雙向RNN、門控循環單元(GRU)、長短期記憶網絡(LSTM)、編解碼器網絡等更加復雜的序列數據處理模型。典型RNN結構示意及其主要復雜序列模型如圖1-5所示。

圖1-5 典型RNN結構示意及其主要復雜序列模型
1.2.3 注意力機制
2014年,注意力機制(attention mechanism,AM)首次應用于時間序列數據分析,引發了人們對其在序列處理上應用的廣泛興趣。
2017年,“Attention Is All You Need”這篇具有里程碑意義的論文發布,標志著自注意力機制的興起,伴隨而來的是Transformer模型的誕生。該模型迅速在深度學習領域確立了其領先地位,并激勵了一系列后續模型的開發。
2022年年末,基于注意力機制的Transformer網絡衍生出廣受歡迎的ChatGPT。在第9章中,我們將深入探討注意力機制的原理、自注意力機制、多頭注意力等核心概念,并指導讀者構建自己的Transformer網絡。
在《破解深度學習(核心篇):模型算法與實現》中,我們將介紹更多新的研究成果,包括BERT、GPT等系列模型以及它們在自然語言處理(NLP)和計算機視覺等領域的變體。在學完這些內容之后,你將會對預訓練大模型的奧秘有進一步的認識。注意力機制示意及其發展時間線如圖1-6所示。

圖1-6 注意力機制示意及其發展時間線
1.2.4 深度生成模型
從CNN到RNN,再到Attention,都是深度學習核心的網絡結構和入門必備的基礎。接下來,我們將介紹深度學習的進階內容“深度生成模型”。如果說前面三大類基礎模型是組件,深度生成模型就是它們的組合體,代表著人工智能領域的前沿發展方向,并在圖像、音頻、文本等生成式人工智能(AIGC)領域得到了廣泛應用。
在《破解深度學習(核心篇):模型算法與實現》中,從蒙特卡洛方法和變分推斷,到變分自編碼器(VAE)、卷積生成網絡、生成對抗網絡(GAN),再到最新的擴散模型,我們會逐一講解,實現全覆蓋式的介紹。GAN和VAE的結構示意如圖1-7所示。

圖1-7 GAN和VAE的結構示意
1.2.5 小結
在本節中,我們探討了深度學習中的幾種核心網絡結構,例如卷積神經網絡、循環神經網絡和注意力機制。每種網絡結構都有其特定的應用場景和優勢。CNN在圖像處理領域表現出色;RNN擅長處理序列數據;注意力機制,尤其是Transformer模型,引領了深度學習的新方向。最后,深度生成模型將上述基礎模型的功能組合起來,推動了AI內容生成的新浪潮。