- 深度學(xué)習(xí)高手筆記(卷2):經(jīng)典應(yīng)用
- 劉巖(@大師兄)
- 886字
- 2024-09-05 16:45:39
1.5.1 提出動機
在R-CNN系列論文中,目標(biāo)檢測一般分成兩個階段:
(1)提取候選區(qū)域;
(2)候選區(qū)域分類和位置精校。
在R-FCN之前,效果最好的Faster R-CNN是使用RPN生成候選區(qū)域,然后使用Fast R-CNN進行分類。在Faster R-CNN中,首先使用ROI池化層將不同大小的候選區(qū)域歸一化到統(tǒng)一大小,之后接若干全連接層,最后使用一個多任務(wù)作為損失函數(shù)。多任務(wù)包含兩個子任務(wù):
● 用于目標(biāo)識別的分類任務(wù);
● 用于目標(biāo)檢測的回歸任務(wù)。
在Faster R-CNN中,為了保證特征的“位移可變性”,F(xiàn)aster R-CNN利用RPN提取了約2000個候選區(qū)域,然后使用全連接層計算損失函數(shù)。然而候選區(qū)域有大量的特征冗余,造成了一部分計算資源的浪費。R-FCN采用了和Faster R-CNN相同的過程,不過做了如下改進:
● R-FCN模仿FCN,采用了全卷積的結(jié)構(gòu);
● R-FCN的兩個階段的網(wǎng)絡(luò)參數(shù)全部共享;
● 使用位置敏感網(wǎng)絡(luò)產(chǎn)生檢測框;
● 位置敏感網(wǎng)絡(luò)無任何可學(xué)習(xí)的參數(shù)。
R-FCN最大的特點是使用了全卷積的網(wǎng)絡(luò)結(jié)構(gòu),即使用1×1卷積代替了Faster R-CNN中使用的全連接。1×1卷積起到了全連接層加非線性的作用,同時還保證了特征點的位置敏感性。R-FCN的結(jié)構(gòu)如圖1.18所示。從圖1.18中可以看出,R-FCN的最重要的模塊便是位置敏感網(wǎng)絡(luò)。
在R-FCN的位置敏感網(wǎng)絡(luò)中,每個ROI被劃分成一個k×k的柵格,每個柵格負(fù)責(zé)檢測目標(biāo)物體的不同部位。例如,對于“人”這個目標(biāo),中上部區(qū)域大概率對應(yīng)的是人的頭部,同理,ROI的其他柵格也對應(yīng)到目標(biāo)物體的其他部位。當(dāng)ROI的每個柵格都找到目標(biāo)物體的對應(yīng)部位時,分類器便會判斷該ROI的類別為目標(biāo)物體。當(dāng)ROI的每個柵格都沒有找到目標(biāo)物體的對應(yīng)部位時,那么該ROI就是一個背景區(qū)域。
這個解決方案有兩個問題:一是目標(biāo)物體之間會有重疊,例如圖1.18中有人騎在馬上的情況;二是目標(biāo)物體會有不同的姿勢,例如人可以彎腰、蹲著等。對于第一個問題,R-FCN采用的策略是輸出k2×(C+1)個通道的特征圖,此時每個通道只負(fù)責(zé)檢測某類目標(biāo)的某個部位,例如某個通道只負(fù)責(zé)檢測人臉。這個策略不僅可以解決不同物體之間的重疊問題,而且可以解決同一類目標(biāo)的重疊問題。其實對于第二個問題,采用的策略是如果目標(biāo)的大部分區(qū)域被檢測到,我們便可以認(rèn)為該目標(biāo)被檢測到,這種策略可以解決絕大多數(shù)目標(biāo)物體的不同姿勢的問題。

圖1.18 R-FCN的結(jié)構(gòu)
- 人工智能改變世界:走向社會的機器人
- 聯(lián)邦學(xué)習(xí)實戰(zhàn)
- 人工智能安全
- 風(fēng)向:如何應(yīng)對互聯(lián)網(wǎng)變革下的知識焦慮、不確定與個人成長
- 小創(chuàng)客學(xué)AI
- 深度思考:人工智能的終點與人類創(chuàng)造力的起點
- AI時代程序員開發(fā)之道:ChatGPT讓程序員插上翅膀
- 智能化社會:未來人們?nèi)绾紊睢⑾鄲酆退伎?/a>
- 機器學(xué)習(xí)中的概率思維
- 人人都能懂的人工智能
- 終極智能:感知機器與人工智能的未來
- AI速成課:從AI編程到構(gòu)建智能軟件
- AI源碼解讀:卷積神經(jīng)網(wǎng)絡(luò)(CNN)深度學(xué)習(xí)案例:Python版
- 人工智能:理論基礎(chǔ)+商業(yè)落地+實戰(zhàn)場景+案例分析
- 云模型與文本挖掘