- 深入理解計算機視覺:在邊緣端構建高效的目標檢測應用
- 張晨然
- 1638字
- 2023-12-13 15:56:58
1.3 MS COCO挑戰賽和數據集
MS COCO(Microsoft Common Objects in Context,常見物體圖像識別)起源于2014年由微軟出資贊助的Microsoft COCO數據集。MS COCO既是數據集的名稱,又是計算機視覺頂級賽事的名稱,MS COCO競賽與ImageNet在2017年舉辦的最后一屆ILSVRC賽事一樣,都被視為計算機視覺領域最權威的競賽之一。
? 1.3.1 MS COCO挑戰賽的競賽任務
MS COCO挑戰賽更偏向于檢測任務。根據MS COCO官網的定義,圖像中的全景(Panoptic)可以分為物體(Things)和背景(Stuff)。其中,物體一般指代那些可數的圖像內容,如人、馬、車、工具等;背景一般指代具有紋理特征但不可數的圖像內容,如天空、草地、樹林等。MS COCO對于圖像的全景、物體和背景的定義如圖1-17所示。

圖1-17 MS COCO對于圖像的全景、物體和背景的定義
針對此定義,MS COCO挑戰賽一共分為6個任務:與全景、物體、背景相關的3個任務,與人體相關的2個任務,與圖像自然語言相關的1個任務。
全景分割任務主要是對全景的分割,需要將每類物體和每類背景都分割出來,但是不需要詳細到每個個體實例。背景分割任務主要是檢測背景,不需要關注物體種類和個體實例(Instance)的分割,在分割方式上,需要將圖像中的每類背景都分割出來,本質上屬于種類分割。物體檢測任務主要是檢測物體,不需要關注背景的分割,在分割方式上,需要將每類物體的每個個體實例都一一區分出來,本質上屬于實例分割。檢測物體的標注有兩種方法,一種是矩形框,另一種是像素級別的實例分割。2018年之后的物體檢測任務只開展像素級別的實例分割檢測,不開展矩形框形式的物體檢測。MS COCO關于全景分割、物體檢測、背景分割的三大任務如圖1-18所示。

圖1-18 MS COCO關于全景分割、物體檢測、背景分割的三大任務
除此之外,MS COCO挑戰賽還有2個與人體相關的任務。稠密姿態任務主要是將單張二維圖片中所有描述人體的像素映射到一個三維的人體表面模型。人體關鍵點檢測任務主要是將圖片中人體各個部位上的關鍵點的位置檢測出來。MS COCO挑戰賽與人體相關的2個任務如圖1-19所示。

圖1-19 MS COCO挑戰賽與人體相關的2個任務
MS COCO挑戰賽還有一個與自然語言相關的圖像說明任務。圖像說明任務也稱看圖說話任務,是一個融合計算機視覺模態、自然語言模態的多模態(Multimodality)任務,它將輸入的一幅圖像輸出為一段針對該圖像的描述文字。MS COCO挑戰賽的圖像說明任務如圖1-20所示。

圖1-20 MS COCO挑戰賽的圖像說明任務
以上6個任務并非每年都舉辦,MS COCO挑戰賽歷年任務列表如表1-3所示。
表1-3 MS COCO挑戰賽歷年任務列表

續表

? 1.3.2 MS COCO數據集簡介
隨著MS COCO挑戰賽公開的就是與其同名的MS COCO數據集。MS COCO數據集集中在2014年、2015年和2017年這3個年份釋放。MS COCO歷年數據集圖片規模如表1-4所示。其中,“k”表示數量單位“千”。
表1-4 MS COCO歷年數據集圖片規模

注:單元格含義是樣本數量/壓縮包大小。
MS COCO數據集的物體檢測任務數據集支持80個分類,擁有超過33萬張圖片,其中20萬張有標注,整個數據集中個體的數目超過150萬個。背景分割任務數據集支持91個分類(天空、樹林等)。全景分割任務數據集支持物體檢測任務的80個分類和背景分割任務的91個分類,合計171個分類。人體關鍵點檢測任務數據集擁有超過20萬張圖片,涵蓋25萬個人體。稠密姿態任務數據集擁有超過3.9萬張圖片,涵蓋5.6萬個人體。
MS COCO數據集在官網的下載分為圖片下載和標注下載。圖片壓縮包只包含以jpg為后綴的圖片文件,標注壓縮包內含的標注文件為json格式。由于單個json文件較大,建議讀者使用MS COCO數據集的數據集工具(pycocotools),它支持數據集的解析和統計,安裝它之前需要預先安裝Visual C++Build Tools(高于14的版本)。
MS COCO數據集的pycocotools提供了支持Python語言的版本。如果讀者的操作系統是Linux家族的,那么可以登錄MS COCO的官方GitHub主頁下載安裝和使用;如果讀者的操作系統是Windows,那么由于官方pycocotools并沒有提供基于Windows操作系統的預編譯包,所以必須登錄GitHub上用戶名為philferriere的主頁,下載由該用戶為Windows預先編譯的pycocotools工具包。下載安裝命令和交互輸出如下。命令中的“#”并不是注釋符號,而用于子目錄索引。

由于MS COCO數據集較大,因此官網支持整體打包下載,也支持每個任務所需的數據集子集單獨下載。本書的案例使用的是數據量較小的PASCAL VOC數據集,因此這里對MS COCO數據集不展開敘述。