官术网_书友最值得收藏!

1.3 ViT模型介紹

要論2020年在計算機視覺領域哪個研究成果的影響力最大,那就當數谷歌團隊提出的ViT(Vision Transformer)了。它挑戰了自從2012年以來由AlexNet提出的卷積神經網絡在計算機視覺領域絕對的統治地位。

在當時,雖然Transformer已經是自然語言處理領域的首選模型了,但是用來做計算機視覺領域的任務還是有一些限制。在計算機視覺領域,自注意力機制要么與卷積神經網絡一起用,要么將某些卷積神經網絡中的卷積操作替換成自注意力操作,但是保持整體的結構不變。而ViT證明了在計算機視覺領域中并非必須依賴卷積神經網絡,將一個單純的Transformer的編碼器直接應用于圖像分類任務的效果也是很好的,尤其是先在大量圖像上進行預訓練,再遷移到中小規模圖像上進行識別。

ViT不僅對計算機視覺領域產生了深刻影響,還打破了計算機視覺和自然語言處理在模型上的壁壘,使其在模型結構上達成了統一,所以在多模態領域也產生了深刻影響。于是,后續各種基于ViT的工作層出不窮,可以說是開啟了計算機視覺領域的一個新時代。在第3章的CLIP模型和Stable Diffusion模型中,也都使用了預訓練好的ViT模型。

主站蜘蛛池模板: 天长市| 清流县| 太仓市| 获嘉县| 古交市| 西贡区| 富宁县| 上虞市| 稻城县| 长海县| 炉霍县| 宜兰县| 黑河市| 罗江县| 泸水县| 台南市| 永清县| 黄浦区| 普宁市| 长子县| 武城县| 青阳县| 赣榆县| 泗洪县| 本溪市| 沙雅县| 宜川县| 柞水县| 谢通门县| 英德市| 娱乐| 拜城县| 惠水县| 沂水县| 外汇| 渭南市| 威海市| 阿图什市| 民勤县| 泸州市| 长乐市|