官术网_书友最值得收藏!

第1章 雙階段檢測

1.5.1 提出動機

在R-CNN系列論文中,目標(biāo)檢測一般分成兩個階段:

(1)提取候選區(qū)域;

(2)候選區(qū)域分類和位置精校。

在R-FCN之前,效果最好的Faster R-CNN是使用RPN生成候選區(qū)域,然后使用Fast R-CNN進行分類。在Faster R-CNN中,首先使用ROI池化層將不同大小的候選區(qū)域歸一化到統(tǒng)一大小,之后接若干全連接層,最后使用一個多任務(wù)作為損失函數(shù)。多任務(wù)包含兩個子任務(wù):

用于目標(biāo)識別的分類任務(wù);

用于目標(biāo)檢測的回歸任務(wù)。

在Faster R-CNN中,為了保證特征的“位移可變性”,F(xiàn)aster R-CNN利用RPN提取了約2000個候選區(qū)域,然后使用全連接層計算損失函數(shù)。然而候選區(qū)域有大量的特征冗余,造成了一部分計算資源的浪費。R-FCN采用了和Faster R-CNN相同的過程,不過做了如下改進:

R-FCN模仿FCN,采用了全卷積的結(jié)構(gòu);

R-FCN的兩個階段的網(wǎng)絡(luò)參數(shù)全部共享;

使用位置敏感網(wǎng)絡(luò)產(chǎn)生檢測框;

位置敏感網(wǎng)絡(luò)無任何可學(xué)習(xí)的參數(shù)。

R-FCN最大的特點是使用了全卷積的網(wǎng)絡(luò)結(jié)構(gòu),即使用1×1卷積代替了Faster R-CNN中使用的全連接。1×1卷積起到了全連接層加非線性的作用,同時還保證了特征點的位置敏感性。R-FCN的結(jié)構(gòu)如圖1.18所示。從圖1.18中可以看出,R-FCN的最重要的模塊便是位置敏感網(wǎng)絡(luò)。

在R-FCN的位置敏感網(wǎng)絡(luò)中,每個ROI被劃分成一個k×k的柵格,每個柵格負(fù)責(zé)檢測目標(biāo)物體的不同部位。例如,對于“人”這個目標(biāo),中上部區(qū)域大概率對應(yīng)的是人的頭部,同理,ROI的其他柵格也對應(yīng)到目標(biāo)物體的其他部位。當(dāng)ROI的每個柵格都找到目標(biāo)物體的對應(yīng)部位時,分類器便會判斷該ROI的類別為目標(biāo)物體。當(dāng)ROI的每個柵格都沒有找到目標(biāo)物體的對應(yīng)部位時,那么該ROI就是一個背景區(qū)域。

這個解決方案有兩個問題:一是目標(biāo)物體之間會有重疊,例如圖1.18中有人騎在馬上的情況;二是目標(biāo)物體會有不同的姿勢,例如人可以彎腰、蹲著等。對于第一個問題,R-FCN采用的策略是輸出k2×(C+1)個通道的特征圖,此時每個通道只負(fù)責(zé)檢測某類目標(biāo)的某個部位,例如某個通道只負(fù)責(zé)檢測人臉。這個策略不僅可以解決不同物體之間的重疊問題,而且可以解決同一類目標(biāo)的重疊問題。其實對于第二個問題,采用的策略是如果目標(biāo)的大部分區(qū)域被檢測到,我們便可以認(rèn)為該目標(biāo)被檢測到,這種策略可以解決絕大多數(shù)目標(biāo)物體的不同姿勢的問題。

圖1.18 R-FCN的結(jié)構(gòu)

主站蜘蛛池模板: 措美县| 疏附县| 葫芦岛市| 万源市| 稷山县| 新泰市| 印江| 巨鹿县| 上饶市| 大新县| 屏边| 五原县| 砀山县| 东阳市| 修武县| 汉源县| 阳山县| 乳源| 枣庄市| 温州市| 邵武市| 武宁县| 原阳县| 高青县| 两当县| 宝鸡市| 华宁县| 张家界市| 菏泽市| 柏乡县| 都兰县| 大埔县| 洞头县| 蛟河市| 揭西县| 海林市| 巴马| 永泰县| 铜川市| 宁德市| 巴中市|