- 多模態大模型:算法、應用與微調
- 劉兆峰
- 642字
- 2024-09-11 17:37:26
1.2.7 小結
Transformer這種新型的深度學習模型,被認為是繼MLP、CNN、RNN之后的第四大特征提取器。它最初用于機器翻譯,但隨著GPT和BERT的出現,Transformer模型引領了NLP領域的快速發展,同時促進了多模態、大模型、ViT等新型模型的興起。Transformer模型的出現也給AI研究人員帶來了信心,使他們意識到除了CNN和RNN之外,還有更有效的特征提取器可供選擇,鼓勵從業者進一步探索。不過,Transformer模型也存在一些不足之處。首先,由于其計算量巨大,模型對GPU顯存和算力的要求很高。其次,由于Transformer模型缺乏歸納偏置能力,因此需要大量的數據才能取得良好的效果,關于這一點我們將在后面詳細介紹。
Transformer模型這種完全基于注意力機制的結構,意味著可以不再用遞歸神經網絡和卷積神經網絡了,這在當時可以說是開了先河。圖1-29是自注意力、遞歸和卷積等操作的每層復雜度、最小序列操作數和最大路徑長度對比,其中n表示序列長度,d表示維度,k表示卷積核大小。可以發現,自注意力層與遞歸層相比,雖然每一層的計算復雜度變大了,但是需要的序列操作復雜度從O(n)減小到了O(1),這是一種典型的“用空間換時間”的思想的應用。而相比于模型結構的優化和硬件的提升,這點空間的犧牲不足為奇。自注意力層與卷積層相比,雖然同樣不需要序列操作,但是卷積層作用于二維結構,一般用于圖像處理,它的計算量是正比于輸入的邊長對數的,也就是O(logkn),而理想情況下,自注意力層是能夠將計算量降低到O(1)的,也就是說,自注意力層相比于卷積層更有潛力,這也為后續的ViT模型提供了思路。

圖1-29 自注意力、遞歸和卷積等操作的每層復雜度、最小序列操作數和最大路徑長度對比