- 多模態(tài)大模型:算法、應(yīng)用與微調(diào)
- 劉兆峰
- 1244字
- 2024-09-11 17:37:26
1.3.1 注意力機(jī)制在圖像上的應(yīng)用
直接將Transformer模型應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的任務(wù)有一些困難。Transformer中最主要的操作層就是注意力層,而注意力層需要在輸入的一系列元素之間兩兩計(jì)算注意力分?jǐn)?shù),形成一個(gè)注意力矩陣,然后利用這個(gè)注意力矩陣對輸入元素進(jìn)行加權(quán)平均計(jì)算。可以發(fā)現(xiàn),注意力分?jǐn)?shù)計(jì)算的復(fù)雜度是O(n2)的,這已經(jīng)是比較復(fù)雜的模型了。
在計(jì)算機(jī)視覺領(lǐng)域中,如果想用Transformer模型,第一個(gè)要解決的問題就是如何把一個(gè)二維的圖像轉(zhuǎn)換成一個(gè)一維的序列。最直觀的方式就是將圖像的每個(gè)像素點(diǎn)當(dāng)成輸入序列的元素,然后直接將二維的圖像拉直。但是“理想很豐滿,現(xiàn)實(shí)很骨感”,一般來說,在計(jì)算機(jī)視覺領(lǐng)域,即使是訓(xùn)練圖像分類任務(wù),一張圖像的分辨率也是224×224像素的,直接拉直成一維向量的話,序列長度為224×224=50176,這個(gè)長度已經(jīng)遠(yuǎn)超出目前模型訓(xùn)練時(shí)計(jì)算機(jī)能夠處理的長度,注意力矩陣的計(jì)算量非常大。并且,在計(jì)算機(jī)視覺的其他任務(wù)中,圖像的分辨率更大,例如,在目標(biāo)檢測任務(wù)中常用的圖像分辨率大小為416×416像素或544×544像素,在視頻分類任務(wù)中常用的圖像分辨率為800×800像素,注意力矩陣的計(jì)算量進(jìn)一步增大。
因此,如何將注意力機(jī)制應(yīng)用于圖像計(jì)算就是將Transformer應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的重點(diǎn)。最簡單的方式就是直接將CNN與自注意力機(jī)制結(jié)合,先由CNN進(jìn)行特征提取,得到一組特征圖,然后將特征圖視為序列,進(jìn)行自注意力計(jì)算。這里的自注意力機(jī)制的結(jié)構(gòu)如圖1-30所示,保留了原始Transformer中的query、key和value等概念,計(jì)算過程包括3個(gè)步驟:首先,通過使用點(diǎn)積、拼接、感知機(jī)等相似度函數(shù),對query與key進(jìn)行相似度計(jì)算以得到權(quán)重;然后,使用softmax函數(shù)對這些權(quán)重進(jìn)行標(biāo)準(zhǔn)化,轉(zhuǎn)換為注意力分?jǐn)?shù);最后,將這些注意力分?jǐn)?shù)與相應(yīng)的value進(jìn)行加權(quán)求和計(jì)算,以得到最終的注意力輸出。這種自注意力機(jī)制依賴特征圖來提取注意力,而卷積的工作方式是通過設(shè)定卷積核來限制其感受野大小,因此為了使網(wǎng)絡(luò)能夠關(guān)注全局的特征圖,通常需要堆疊多層網(wǎng)絡(luò)。自注意力機(jī)制的主要優(yōu)點(diǎn)在于其具有全局的關(guān)注范圍,簡單地通過查詢和賦值操作就能捕獲特征圖的全局空間信息。這個(gè)特性使得自注意力機(jī)制在處理復(fù)雜的特征圖時(shí)更具優(yōu)勢。

圖1-30 自注意力機(jī)制在圖像特征圖中的應(yīng)用流程
傳統(tǒng)的CNN在處理數(shù)據(jù)時(shí),只能關(guān)注卷積核周圍的局部信息,無法有效地融合遠(yuǎn)處的信息。這會(huì)導(dǎo)致模型在處理一些需要全局上下文理解的任務(wù)時(shí)性能較差。而注意力機(jī)制本身就實(shí)現(xiàn)了加權(quán)融合,既可以融合全局的信息,也可以融合局部的信息,因此能更好地理解全局上下文。具體來說,注意力機(jī)制通過計(jì)算不同位置之間的注意力權(quán)重,將遠(yuǎn)處的信息加權(quán)融合進(jìn)當(dāng)前位置的表示。基于這一思想,加州大學(xué)的王小龍?zhí)岢隽薔on-local Neural Network(非局部神經(jīng)網(wǎng)絡(luò)),應(yīng)用于Kinetics視頻分類。如圖1-31所示,第一幀中xi位置的球的信息可能和后面幾幀中xj位置的人及球的信息有關(guān),有了這兩個(gè)位置的圖像特征,就可以計(jì)算得到一個(gè)新的特征

其中C(x)為標(biāo)準(zhǔn)化項(xiàng),而對于函數(shù)f和g,可以選擇注意力函數(shù)。通過這種方式將注意力機(jī)制融合到很多卷積神經(jīng)網(wǎng)絡(luò)的基線中,在多個(gè)數(shù)據(jù)集上都取得了SOTA效果。

圖1-31 非局部神經(jīng)網(wǎng)絡(luò)在視頻幀間的注意力信息融合示意
- 深度學(xué)習(xí)計(jì)算機(jī)視覺實(shí)戰(zhàn)
- AI落地:讓人工智能為你所用
- 人工智能3.0:大智若愚
- 物聯(lián)網(wǎng)之云:云平臺(tái)搭建與大數(shù)據(jù)處理
- 新智元:機(jī)器+人類=超智能時(shí)代
- 應(yīng)用人工智能:工程方法(原書第2版)
- Joy RL:強(qiáng)化學(xué)習(xí)實(shí)踐教程
- 深度學(xué)習(xí)原理與應(yīng)用
- PyTorch神經(jīng)網(wǎng)絡(luò)實(shí)戰(zhàn):移動(dòng)端圖像處理
- 科學(xué)+預(yù)見人工智能
- 碼農(nóng)的零門檻AI課:基于fastai與PyTorch的深度學(xué)習(xí)
- Unity虛擬現(xiàn)實(shí)開發(fā)實(shí)戰(zhàn)
- 深度學(xué)習(xí)入門與實(shí)踐
- 人工不智能:計(jì)算機(jī)如何誤解世界(見識(shí)叢書52)
- 輕松玩轉(zhuǎn)DeepSeek:入門 實(shí)操 精通 變現(xiàn)