- 多模態大模型:算法、應用與微調
- 劉兆峰
- 433字
- 2024-09-11 17:37:26
1.3 ViT模型介紹
要論2020年在計算機視覺領域哪個研究成果的影響力最大,那就當數谷歌團隊提出的ViT(Vision Transformer)了。它挑戰了自從2012年以來由AlexNet提出的卷積神經網絡在計算機視覺領域絕對的統治地位。
在當時,雖然Transformer已經是自然語言處理領域的首選模型了,但是用來做計算機視覺領域的任務還是有一些限制。在計算機視覺領域,自注意力機制要么與卷積神經網絡一起用,要么將某些卷積神經網絡中的卷積操作替換成自注意力操作,但是保持整體的結構不變。而ViT證明了在計算機視覺領域中并非必須依賴卷積神經網絡,將一個單純的Transformer的編碼器直接應用于圖像分類任務的效果也是很好的,尤其是先在大量圖像上進行預訓練,再遷移到中小規模圖像上進行識別。
ViT不僅對計算機視覺領域產生了深刻影響,還打破了計算機視覺和自然語言處理在模型上的壁壘,使其在模型結構上達成了統一,所以在多模態領域也產生了深刻影響。于是,后續各種基于ViT的工作層出不窮,可以說是開啟了計算機視覺領域的一個新時代。在第3章的CLIP模型和Stable Diffusion模型中,也都使用了預訓練好的ViT模型。