官术网_书友最值得收藏!

1.2.7 小結

Transformer這種新型的深度學習模型,被認為是繼MLP、CNN、RNN之后的第四大特征提取器。它最初用于機器翻譯,但隨著GPT和BERT的出現,Transformer模型引領了NLP領域的快速發展,同時促進了多模態、大模型、ViT等新型模型的興起。Transformer模型的出現也給AI研究人員帶來了信心,使他們意識到除了CNN和RNN之外,還有更有效的特征提取器可供選擇,鼓勵從業者進一步探索。不過,Transformer模型也存在一些不足之處。首先,由于其計算量巨大,模型對GPU顯存和算力的要求很高。其次,由于Transformer模型缺乏歸納偏置能力,因此需要大量的數據才能取得良好的效果,關于這一點我們將在后面詳細介紹。

Transformer模型這種完全基于注意力機制的結構,意味著可以不再用遞歸神經網絡和卷積神經網絡了,這在當時可以說是開了先河。圖1-29是自注意力、遞歸和卷積等操作的每層復雜度、最小序列操作數和最大路徑長度對比,其中n表示序列長度,d表示維度,k表示卷積核大小。可以發現,自注意力層與遞歸層相比,雖然每一層的計算復雜度變大了,但是需要的序列操作復雜度從O(n)減小到了O(1),這是一種典型的“用空間換時間”的思想的應用。而相比于模型結構的優化和硬件的提升,這點空間的犧牲不足為奇。自注意力層與卷積層相比,雖然同樣不需要序列操作,但是卷積層作用于二維結構,一般用于圖像處理,它的計算量是正比于輸入的邊長對數的,也就是O(logkn),而理想情況下,自注意力層是能夠將計算量降低到O(1)的,也就是說,自注意力層相比于卷積層更有潛力,這也為后續的ViT模型提供了思路。

圖1-29 自注意力、遞歸和卷積等操作的每層復雜度、最小序列操作數和最大路徑長度對比

主站蜘蛛池模板: 平果县| 光山县| 揭西县| 兴国县| 清水河县| 内乡县| 凤冈县| 洛隆县| 孝义市| 二连浩特市| 罗城| 霍山县| 保山市| 镇赉县| 邳州市| 龙山县| 酒泉市| 文山县| 合阳县| 万源市| 甘孜县| 金沙县| 崇明县| 广河县| 邵东县| 四子王旗| 肃宁县| 扶风县| 衡南县| 观塘区| 汕尾市| 武川县| 周口市| 桐梓县| 沙河市| 上蔡县| 余庆县| 深圳市| 阿瓦提县| 上杭县| 绿春县|