不朽情缘输几十万

書名：多模態大模型：算法、應用與微調
作者名：劉兆峰
本章字數： 642字
更新時間： 2024-09-11 17:37:26

1.2.7 小結

Transformer這種新型的深度學習模型，被認為是繼MLP、CNN、RNN之后的第四大特征提取器。它最初用于機器翻譯，但隨著GPT和BERT的出現，Transformer模型引領了NLP領域的快速發展，同時促進了多模態、大模型、ViT等新型模型的興起。Transformer模型的出現也給AI研究人員帶來了信心，使他們意識到除了CNN和RNN之外，還有更有效的特征提取器可供選擇，鼓勵從業者進一步探索。不過，Transformer模型也存在一些不足之處。首先，由于其計算量巨大，模型對GPU顯存和算力的要求很高。其次，由于Transformer模型缺乏歸納偏置能力，因此需要大量的數據才能取得良好的效果，關于這一點我們將在后面詳細介紹。

Transformer模型這種完全基于注意力機制的結構，意味著可以不再用遞歸神經網絡和卷積神經網絡了，這在當時可以說是開了先河。圖1-29是自注意力、遞歸和卷積等操作的每層復雜度、最小序列操作數和最大路徑長度對比，其中n表示序列長度，d表示維度，k表示卷積核大小。可以發現，自注意力層與遞歸層相比，雖然每一層的計算復雜度變大了，但是需要的序列操作復雜度從O(n)減小到了O(1)，這是一種典型的“用空間換時間”的思想的應用。而相比于模型結構的優化和硬件的提升，這點空間的犧牲不足為奇。自注意力層與卷積層相比，雖然同樣不需要序列操作，但是卷積層作用于二維結構，一般用于圖像處理，它的計算量是正比于輸入的邊長對數的，也就是O(log_kn)，而理想情況下，自注意力層是能夠將計算量降低到O(1)的，也就是說，自注意力層相比于卷積層更有潛力，這也為后續的ViT模型提供了思路。

圖1-29 自注意力、遞歸和卷積等操作的每層復雜度、最小序列操作數和最大路徑長度對比

官术网_书友最值得收藏!

多模態大模型：算法、應用與微調

1.2.7 小結