- 深度學習高手筆記(卷2):經典應用
- 劉巖(@大師兄)
- 479字
- 2024-09-05 16:45:39
1.5 R-FCN
在本節中,先驗知識包括:
? Faster R-CNN(1.4節);
? DeepLab(6.4節);
? FCN(6.1節)。
位移不變性是CNN的一個重要特征,該特征是CNN在圖像分類任務上取得非常好的效果的原因。所謂位移不變性,是指圖像中物體的位置對圖像的分類沒有影響。但是在目標檢測的場景中,我們需要知道檢測物體的具體位置,這時候需要網絡對物體的位置非常敏感,即需要網絡具有“位移可變性”。R-FCN[15]的提出便是用來解決分類任務中位移不變性和檢測任務中位移可變性之間的矛盾的。
[15] 參見Jifeng Dai、Yi Li、Kaiming He等人的論文“R-FCN: Object Detection via Region-based Fully Convolutional Networks”。
同時,R-FCN分析了Faster R-CNN 存在的性能瓶頸,即ROI池化之后使用Fast R-CNN 對RPN提取的候選區域進行分類和位置精校。在R-FCN中,ROI池化之后便不存在可學習的參數,從而將Faster R-CNN的推理速度提高了2.5~20倍。
在R-FCN提出之前,深度學習在分割任務上也取得了突破性的進展,其中最具代表性的算法之一便是FCN[16]。FCN是一個完全由卷積操作構成的神經網絡,它預測的分割圖和輸入圖像保持了位移敏感性。雖然FCN得到的分割圖相對于原圖進行了降采樣,但是我們仍舊可以使用這個降采樣的分割圖來進行目標檢測。
[16] 參見Jonathan Long、Evan Shelhamer、Trevor Darrell的論文“Fully Convolutional Networks for Semantic Segmentation”。