官术网_书友最值得收藏!

第1章 雙階段檢測

bt2-L 1.7 MaskX R-CNN

在本節(jié)中,先驗知識包括:

? Mask R-CNN(1.6 節(jié));

? YOLOv2(2.3節(jié))。

YOLO9000[22]通過半監(jiān)督學(xué)習(xí)的方式將模型可檢測的類別從80類擴展到了9418類,YOLO9000類別擴展有效的原因之一是目標分類和目標檢測使用了共享的特征,而這些特征是由分類和檢測的損失函數(shù)共同訓(xùn)練得到的。采用半監(jiān)督學(xué)習(xí)的方式訓(xùn)練YOLO9000的一個重要原因就是檢測數(shù)據(jù)價格高昂。所以,YOLO9000采用了數(shù)據(jù)量較小的COCO的檢測標簽、數(shù)據(jù)量很大的ImageNet的分類標簽作為半監(jiān)督學(xué)習(xí)的樣本,分別訓(xùn)練多任務(wù)模型的檢測分支和分類分支,進而得到了可以同時進行分類和檢測的特征。


[22] 參見Joseph Redmon、Ali Farhadi的論文“YOLO9000: Better, Faster, Stronger”。

之所以先介紹YOLO9000,是因為本節(jié)要分析的MaskX R-CNN[23]和YOLO9000的動機和設(shè)計有很多相同點。


[23] 參見Ronghang Hu、Piotr Dollár、Kaiming He等人的論文“Learning to Segment Every Thing”。

它們都是在多任務(wù)模型中使用半監(jiān)督學(xué)習(xí)來完成自己的任務(wù)的:YOLO9000用來做檢測,MaskX R-CNN用來做實例分割。

使用半監(jiān)督學(xué)習(xí):因為它們想將目標類別擴展到更廣的范圍,所以面臨數(shù)據(jù)量不夠的問題,對比檢測任務(wù),實例分割的數(shù)據(jù)集更為稀缺(COCO的80類,PASCAL VOC的20類),但是Visual Genome(VG)[24]數(shù)據(jù)集有3000類108 077張帶有目標框的樣本。


[24] 參見Ranjay Krishna、Yuke Zhu、Oliver Groth等人的論文“Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations”。

它們的框架算法都繼承自另外的框架:YOLO9000繼承自YOLOv2,MaskX R-CNN繼承自Mask R-CNN。

不同于YOLO9000通過構(gòu)建WordTree的數(shù)據(jù)結(jié)構(gòu)來使用兩個數(shù)據(jù)集,MaskX R-CNN提出了一個叫作權(quán)值遷移函數(shù)(weight transfer function)的遷移學(xué)習(xí)方法,將目標檢測的特征遷移到實例分割任務(wù)中,進而實現(xiàn)了對VG數(shù)據(jù)集中3000類樣本的實例分割。這個權(quán)值遷移函數(shù)便是MaskX R-CNN的精華所在。

主站蜘蛛池模板: 通辽市| 二连浩特市| 隆尧县| 绥德县| 大竹县| 营口市| 荥经县| 汉沽区| 鱼台县| 乌什县| 芦溪县| 化州市| 东乌珠穆沁旗| 隆化县| 蕲春县| 中江县| 广宗县| 汽车| 阿城市| 汉沽区| 革吉县| 峨眉山市| 曲阳县| 图木舒克市| 阜城县| 灵台县| 浦江县| 吴川市| 唐海县| 彰化县| 子长县| 宝清县| 苏尼特右旗| 大洼县| 沐川县| 东乡县| 盘锦市| 黔西| 丹寨县| 星子县| 天柱县|