- 深度學(xué)習(xí)高手筆記(卷2):經(jīng)典應(yīng)用
- 劉巖(@大師兄)
- 633字
- 2024-09-05 16:45:42
1.7 MaskX R-CNN
在本節(jié)中,先驗知識包括:
? Mask R-CNN(1.6 節(jié));
? YOLOv2(2.3節(jié))。
YOLO9000[22]通過半監(jiān)督學(xué)習(xí)的方式將模型可檢測的類別從80類擴展到了9418類,YOLO9000類別擴展有效的原因之一是目標分類和目標檢測使用了共享的特征,而這些特征是由分類和檢測的損失函數(shù)共同訓(xùn)練得到的。采用半監(jiān)督學(xué)習(xí)的方式訓(xùn)練YOLO9000的一個重要原因就是檢測數(shù)據(jù)價格高昂。所以,YOLO9000采用了數(shù)據(jù)量較小的COCO的檢測標簽、數(shù)據(jù)量很大的ImageNet的分類標簽作為半監(jiān)督學(xué)習(xí)的樣本,分別訓(xùn)練多任務(wù)模型的檢測分支和分類分支,進而得到了可以同時進行分類和檢測的特征。
[22] 參見Joseph Redmon、Ali Farhadi的論文“YOLO9000: Better, Faster, Stronger”。
之所以先介紹YOLO9000,是因為本節(jié)要分析的MaskX R-CNN[23]和YOLO9000的動機和設(shè)計有很多相同點。
[23] 參見Ronghang Hu、Piotr Dollár、Kaiming He等人的論文“Learning to Segment Every Thing”。
● 它們都是在多任務(wù)模型中使用半監(jiān)督學(xué)習(xí)來完成自己的任務(wù)的:YOLO9000用來做檢測,MaskX R-CNN用來做實例分割。
● 使用半監(jiān)督學(xué)習(xí):因為它們想將目標類別擴展到更廣的范圍,所以面臨數(shù)據(jù)量不夠的問題,對比檢測任務(wù),實例分割的數(shù)據(jù)集更為稀缺(COCO的80類,PASCAL VOC的20類),但是Visual Genome(VG)[24]數(shù)據(jù)集有3000類108 077張帶有目標框的樣本。
[24] 參見Ranjay Krishna、Yuke Zhu、Oliver Groth等人的論文“Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations”。
● 它們的框架算法都繼承自另外的框架:YOLO9000繼承自YOLOv2,MaskX R-CNN繼承自Mask R-CNN。
不同于YOLO9000通過構(gòu)建WordTree的數(shù)據(jù)結(jié)構(gòu)來使用兩個數(shù)據(jù)集,MaskX R-CNN提出了一個叫作權(quán)值遷移函數(shù)(weight transfer function)的遷移學(xué)習(xí)方法,將目標檢測的特征遷移到實例分割任務(wù)中,進而實現(xiàn)了對VG數(shù)據(jù)集中3000類樣本的實例分割。這個權(quán)值遷移函數(shù)便是MaskX R-CNN的精華所在。
- AIGC:讓生成式AI成為自己的外腦
- 知識圖譜與認知智能:基本原理、關(guān)鍵技術(shù)、應(yīng)用場景與解決方案
- 秒懂AI設(shè)計:人人都能成為設(shè)計高手
- 為機器立心(通用人工智能的中國藍圖系列)
- 深度學(xué)習(xí)與計算機視覺:項目式教材
- 人工智能通識
- 物聯(lián)網(wǎng)追溯系統(tǒng)及數(shù)據(jù)處理
- 智能控制:理論基礎(chǔ)、算法設(shè)計與應(yīng)用
- 智能物聯(lián)網(wǎng)的存儲器設(shè)計與實現(xiàn)
- Unity虛擬現(xiàn)實開發(fā)實戰(zhàn)
- 人工智能革命:歷史、當(dāng)下與未來
- 計算機應(yīng)用與數(shù)據(jù)分析+人工智能
- 物聯(lián)網(wǎng)技術(shù)應(yīng)用:智能家居(第2版)
- 機器學(xué)習(xí)中的統(tǒng)計思維(Python實現(xiàn))
- 精通AI虛擬數(shù)字人制作與應(yīng)用:直播主播+視頻博主+營銷推廣+教育培訓(xùn)