- 智能空戰(zhàn)對抗訓(xùn)練目標(biāo)識(shí)別
- 王棟等
- 22字
- 2023-04-25 10:22:47
第一部分 復(fù)雜場景下的小目標(biāo)檢測與識(shí)別方法研究
第1章 緒論
1.1 研究背景及意義
1.1.1 研究意義
深度學(xué)習(xí)技術(shù)極大地促進(jìn)了人工智能領(lǐng)域的發(fā)展,如計(jì)算機(jī)視覺、自然語言處理和語音識(shí)別等。深度學(xué)習(xí)技術(shù)為傳統(tǒng)理想環(huán)境下對物體檢測與識(shí)別技術(shù)的研究帶來了革命性的發(fā)展。檢測與識(shí)別技術(shù)正在改變?nèi)藗兊纳睿缛四樧R(shí)別已經(jīng)廣泛應(yīng)用于人臉支付等領(lǐng)域,車牌識(shí)別已經(jīng)應(yīng)用于門禁和高速收費(fèi)站等場景。上述應(yīng)用場景都屬于理想環(huán)境下的目標(biāo)檢測和識(shí)別場景,該類場景背景相對單一,目標(biāo)分辨率有保障,還可通過紅外補(bǔ)光的手段來保障相對穩(wěn)定的光照條件。但是在更為普適的開放環(huán)境下,此類系統(tǒng)往往會(huì)因拍攝角度、目標(biāo)尺寸、環(huán)境變化等的限制,而無法正常工作。因此,復(fù)雜場景下小目標(biāo)的檢測與識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的新興熱點(diǎn)方向。
普適的目標(biāo)檢測與識(shí)別是復(fù)雜場景下的小目標(biāo)檢測與識(shí)別問題,該研究存在3個(gè)層面的挑戰(zhàn)。一是環(huán)境的復(fù)雜性,系統(tǒng)需要在各種非理想的、開放的環(huán)境下正常工作,因此,無法做單一背景假設(shè)。二是目標(biāo)特性的復(fù)雜性,待檢測與識(shí)別的目標(biāo)具有尺寸不確定性、分布擁擠、分辨率低等特點(diǎn)。三是數(shù)據(jù)的不完備性,首先對于某些特定應(yīng)用領(lǐng)域的數(shù)據(jù)獲取困難,如軍事偵察;其次,即使可以獲取大量數(shù)據(jù),但由于場景和目標(biāo)的多樣性,枚舉所有場景和目標(biāo)并完成正確標(biāo)注也是一項(xiàng)艱巨的工作,數(shù)據(jù)不完備將帶來巨大的過擬合隱患。環(huán)境的復(fù)雜性、目標(biāo)特性的復(fù)雜性、數(shù)據(jù)的不完備性等因素,容易使小目標(biāo)檢測與識(shí)別趨向于提取表形更顯著的背景特征,而小目標(biāo)的本質(zhì)特征則被淹沒于背景特征之中。
復(fù)雜場景下的小目標(biāo)檢測與識(shí)別研究將大大拓展計(jì)算機(jī)視覺技術(shù)在民用領(lǐng)域的應(yīng)用,現(xiàn)有大量已部署的檢測與識(shí)別系統(tǒng),包括視頻監(jiān)控系統(tǒng)、人臉考勤識(shí)別系統(tǒng)和車牌識(shí)別系統(tǒng)。這類場景往往背景固定,并且感興趣區(qū)域的尺寸大,具有豐富的細(xì)節(jié)信息。但是上述檢測識(shí)別系統(tǒng)很難處理復(fù)雜場景下的檢測與識(shí)別任務(wù),如自動(dòng)駕駛、視頻監(jiān)控和智能無人機(jī)。自動(dòng)駕駛系統(tǒng)必須具備準(zhǔn)確感知遠(yuǎn)方小尺寸物體的能力,該系統(tǒng)應(yīng)能及時(shí)發(fā)現(xiàn)潛在危險(xiǎn)目標(biāo),盡早采取措施,盡早檢測到小尺寸物體,如行人、車輛及交通標(biāo)示牌等,以有效地降低惡性交通事故發(fā)生的風(fēng)險(xiǎn)。交通標(biāo)示牌識(shí)別技術(shù)可以幫助車輛更加安全穩(wěn)定地行駛。大規(guī)模視頻監(jiān)控系統(tǒng)應(yīng)能夠準(zhǔn)確地檢測擁擠場景(如地鐵、機(jī)場等)下小尺寸的人臉,能并快速、準(zhǔn)確地發(fā)現(xiàn)感興趣人員的身份。無人機(jī)拍攝的影像存在大量小目標(biāo),無人機(jī)系統(tǒng)若能檢測識(shí)別這類目標(biāo),將對災(zāi)害發(fā)生后快速部署救災(zāi)力量、高效搜救受災(zāi)人員起到至關(guān)重要的作用。復(fù)雜場景下小目標(biāo)的檢測與識(shí)別技術(shù)就是為了解決上述應(yīng)用中最重要的問題:如何在圖像中準(zhǔn)確找到小尺寸物體和判斷它們的類別。圖1.1展示了復(fù)雜場景下小目標(biāo)檢測與識(shí)別典型應(yīng)用的示例,算法成功預(yù)測了小尺寸行人、人臉、車輛等的位置和尺寸,并給出了對應(yīng)的類別和置信度。

圖1.1 復(fù)雜場景下小目標(biāo)檢測與識(shí)別典型應(yīng)用的示例

圖1.1 復(fù)雜場景下小目標(biāo)檢測與識(shí)別典型應(yīng)用的示例(續(xù))
在軍事應(yīng)用方面,環(huán)境的復(fù)雜性、目標(biāo)特性的復(fù)雜性及數(shù)據(jù)的不完備性正是制約計(jì)算機(jī)視覺技術(shù)應(yīng)用的瓶頸。從衛(wèi)星態(tài)勢感知、導(dǎo)彈末端制導(dǎo),到單兵智能裝備,均離不開復(fù)雜場景下小目標(biāo)檢測與識(shí)別技術(shù)。現(xiàn)代戰(zhàn)爭需要通過衛(wèi)星對地面進(jìn)行觀測,從而進(jìn)行戰(zhàn)場態(tài)勢感知。衛(wèi)星捕獲的圖像包含復(fù)雜的物體,如港口、艦船和云層等;感興趣的目標(biāo)也存在多樣性:大尺寸的物體,如港口;小尺寸的物體,如艦船、塊狀的云層。復(fù)雜的地面物體特征和多樣性的地面物體目標(biāo)是準(zhǔn)確進(jìn)行戰(zhàn)場態(tài)勢感知的主要挑戰(zhàn)。另外,為滿足武器系統(tǒng)迅速精確打擊敵方目標(biāo)的要求,就必須在超遠(yuǎn)距離下捕獲敵方目標(biāo)。遠(yuǎn)距離目標(biāo)在光學(xué)成像平面上僅占幾像素,無形狀和結(jié)構(gòu)特征、強(qiáng)度較弱,且在實(shí)戰(zhàn)環(huán)境中經(jīng)常藏匿于復(fù)雜背景中,十分容易受到沙塵、霧霾、雨雪等復(fù)雜天候的影響。而且單兵智能裝備,如車輛、飛機(jī)和作戰(zhàn)頭盔等的更新升級也離不開小目標(biāo)檢測與識(shí)別技術(shù)。面對匿蹤于復(fù)雜背景中的敵方目標(biāo),輔助駕駛系統(tǒng)需要提供有效的威脅預(yù)警機(jī)制,讓駕駛員在保持安全的前提下,集中精力完成主要任務(wù)。
1.1.2 研究現(xiàn)狀
1.小目標(biāo)檢測與識(shí)別
自20世紀(jì)60年代起,目標(biāo)檢測與識(shí)別領(lǐng)域經(jīng)歷了從指紋識(shí)別、考勤打卡等相距較近的檢測識(shí)別[2,3],到無人車和無人機(jī)等相距較遠(yuǎn)的檢測識(shí)別[4-7],再到衛(wèi)星成像的小目標(biāo)檢測識(shí)別[8-11]的發(fā)展過程。小目標(biāo)檢測與識(shí)別的方法分為:圖像尺度變換、多尺度特征融合、上下文信息編碼和匹配策略[21-23]。
基于圖像尺度變換的方法是在多個(gè)原始圖像尺度上進(jìn)行操作,從而提升算法對小目標(biāo)的檢測效果的。DetNet[22]網(wǎng)絡(luò)采用了一種空洞卷積結(jié)構(gòu),通過保持空間分辨率和擴(kuò)大感受野,避免了過多的下采樣操作,提升了神經(jīng)網(wǎng)絡(luò)檢測小目標(biāo)的能力。PGAN[23]生成網(wǎng)絡(luò)是一個(gè)深度殘差特征生成模型,引入了低層次細(xì)粒度特征,通過感知損失約束來提升物體檢測率。基于圖像尺度變換的方法的缺點(diǎn)在于其計(jì)算量較大,對計(jì)算機(jī)算力和內(nèi)存要求較高。基于多尺度特征融合的方法融合了神經(jīng)網(wǎng)絡(luò)的深層特征和淺層特征,綜合考慮了強(qiáng)位置特征和強(qiáng)語義特征,從而來提升模型效果的小目標(biāo)檢測方法。FPN[21]網(wǎng)絡(luò)不僅上采樣深層特征,使其與淺層特征圖大小一致,從而能夠進(jìn)行特征圖堆疊,而且對每個(gè)卷積模塊的最終特征圖采用1×1卷積核進(jìn)行降通道操作,可減少特征圖的個(gè)數(shù),從而顯著提升小目標(biāo)的檢測效果。基于多尺度特征融合的方法得到的特征往往很難解釋,結(jié)果通常不可控。基于匹配策略的方法是通過調(diào)整合適的并交比(IoU)來提高算法檢測小目標(biāo)的能力。級聯(lián)R-CNN[25]網(wǎng)絡(luò)有多個(gè)IoU閾值遞增的header,每級使用上一級微調(diào)后的bbox作為輸入,保證每級的header都可以得到足夠多質(zhì)量可以逐級提升的正樣本。ALFNet[26]利用不斷提升的IoU閾值訓(xùn)練多個(gè)定位模塊,來達(dá)到提升定位精度的目的。基于匹配策略的方法通過調(diào)整IoU閾值,雖然能在一定程度上提升小目標(biāo)檢測能力,但提升程度終究有限。上下文信息在目標(biāo)檢測中起著重要的作用[35-38]。ION[24]結(jié)合感興趣區(qū)域的內(nèi)部信息和外部信息,通過空間遞歸神經(jīng)網(wǎng)絡(luò)將上下文特征結(jié)合在一起,提高了小目標(biāo)檢測的準(zhǔn)確率。基于上下文信息的方法難點(diǎn)在于如何高效地訓(xùn)練和推理,以準(zhǔn)確選取和利用小目標(biāo)上下文信息來輔助檢測。
2.小目標(biāo)檢測與識(shí)別的發(fā)展趨勢
小目標(biāo)檢測與識(shí)別領(lǐng)域主要的發(fā)展方向包括信息補(bǔ)償、多尺度區(qū)域推薦[27-29]。
(1)信息補(bǔ)償。低分辨率極小目標(biāo)的識(shí)別難度非常大,其難點(diǎn)在于原始信號(hào)本身攜帶了很少的信息量,信息補(bǔ)償是解決該問題的根本途徑。在識(shí)別或分類之前,信息補(bǔ)償嘗試重建高分辨率感興趣區(qū)域,來補(bǔ)償圖像丟失的信息。文獻(xiàn)[109]提出了一種跨域聯(lián)想的網(wǎng)絡(luò),用來恢復(fù)圖像細(xì)節(jié),并增強(qiáng)低分辨率圖片的質(zhì)量。文獻(xiàn)[98-110]利用低分辨率圖像生成了逼真的高分辨圖像,用于圖像分類任務(wù)。但是,該技術(shù)的主要缺點(diǎn)是上述方法是重建出來的超分圖像,可能包含嚴(yán)重的失真區(qū)域,尤其是當(dāng)原始圖像分辨率很低時(shí)。也就是說,低分辨率圖像損失了大量信息,使其無法直接從低分辨率圖像中提取出足夠可識(shí)別特征。
(2)多尺度區(qū)域推薦。當(dāng)前,大多數(shù)檢測器是基于錨點(diǎn)的方法,這類目標(biāo)檢測器存在一些嚴(yán)重的缺陷,這些缺陷限制了檢測的準(zhǔn)確性。當(dāng)前的錨點(diǎn)先驗(yàn)主要是手動(dòng)設(shè)計(jì)的,很難匹配多尺度對象。盡管已經(jīng)提出了一些方法來將基于錨點(diǎn)的方法轉(zhuǎn)換為無錨的方法,如基于關(guān)鍵點(diǎn)的方法;但是仍然存在一些局限性,如高計(jì)算成本等,不過依然有很大的改進(jìn)空間。錨點(diǎn)缺失的方法已經(jīng)成為對象檢測中非常熱門的話題[30-34],將來,設(shè)計(jì)有效的候選區(qū)域生成策略可能是非常重要的研究方向。
對象通常傾向于出現(xiàn)在特定的環(huán)境中,有時(shí)也與其他對象共存。對于每個(gè)實(shí)例,鳥類通常都會(huì)在天空中飛翔,車輛通常在地面上行駛。有效地使用上下文信息可以幫助提高檢測性能,特別是對于檢測線索不足(小物體,遮擋物等)的物體而言。學(xué)習(xí)物體與周圍環(huán)境之間的關(guān)系可以提高檢測器對場景的理解能力,這對于更好地了解視覺世界至關(guān)重要。但是,很少重視如何正確編碼上下文信息。
1.1.3 困難挑戰(zhàn)
復(fù)雜場景小目標(biāo)檢測與識(shí)別研究的挑戰(zhàn)總結(jié)為以下3個(gè):
挑戰(zhàn)一,環(huán)境的復(fù)雜性是計(jì)算機(jī)視覺中實(shí)驗(yàn)室理論結(jié)果與實(shí)際應(yīng)用效果存在巨大差異的核心原因之一。現(xiàn)有大量已部署的檢測與識(shí)別系統(tǒng)往往會(huì)固定背景,而實(shí)際應(yīng)用中拍攝的背景通常充滿復(fù)雜變化。這種復(fù)雜變化一方面來自相機(jī)的自身移動(dòng),如衛(wèi)星、無人機(jī)和車輛載具等;另一方面來自成像條件的改變,如雨、雪、霧等惡劣天氣。復(fù)雜場景下的小目標(biāo)檢測與識(shí)別本質(zhì)上是背景淹沒前景,所以導(dǎo)致前背景難分離,如大浪中的小船、濃霧中的小飛機(jī)。圖1.2所示為遙感圖像中,濃霧天氣下的飛機(jī)檢測,圖1.2(f)中的圓圈內(nèi)為漏檢的飛機(jī)。
挑戰(zhàn)二,目標(biāo)特性的復(fù)雜性給物體檢測識(shí)別帶來了巨大的挑戰(zhàn)。物體本身尺寸、顏色、形狀和紋理等方面的變化都會(huì)增加物體的類內(nèi)差異,從而對物體的識(shí)別造成困難。已有的工作都集中在較大尺寸的目標(biāo)上(大于64像素×64像素),而本書重點(diǎn)研究小尺寸目標(biāo)(小于16像素×16像素)。另外,深度學(xué)習(xí)固有的層次結(jié)構(gòu)及錨點(diǎn)結(jié)構(gòu)使處理小目標(biāo)更加困難。第一,層次結(jié)構(gòu)導(dǎo)致信息流失。區(qū)別于常規(guī)尺寸的目標(biāo),微小尺寸的目標(biāo)經(jīng)過多次卷積和池化后,會(huì)發(fā)生卷積特征減弱甚至消失的問題,導(dǎo)致小目標(biāo)檢測陷入困境。具體來說,微小目標(biāo)本身在成像特性方面,極端天候?qū)е挛⑿∧繕?biāo)所在區(qū)域缺乏豐富細(xì)節(jié)信息,稱為第一次信息流失。在神經(jīng)網(wǎng)絡(luò)內(nèi)部,池化和非線性激活結(jié)構(gòu)會(huì)加劇信息流失。兩個(gè)階段的信息流失使得微小目標(biāo)識(shí)別極其困難。第二,錨點(diǎn)參數(shù)設(shè)置,如步長和尺寸。首先,目標(biāo)小尺寸與錨點(diǎn)大步長的矛盾,小目標(biāo)尺寸通常為16像素×16像素,錨點(diǎn)步長通常為8像素或16像素,加上池化層對感興趣區(qū)域特征圖的降采樣,會(huì)導(dǎo)致小目標(biāo)的特征圖很容易被忽略;其次,CNNs感受野、錨點(diǎn)及小目標(biāo)的尺寸不匹配;再次,如果感興趣物體的尺寸與錨點(diǎn)的尺寸接近,則會(huì)有較多錨點(diǎn)與之匹配,否則,錨點(diǎn)會(huì)非常少;最后,與常規(guī)物體檢測相比,小目標(biāo)檢測會(huì)帶來更多虛警錨點(diǎn),導(dǎo)致小目標(biāo)的誤檢率提高。

圖1.2 遙感圖像中,濃霧天氣下的飛機(jī)檢測
挑戰(zhàn)三,數(shù)據(jù)的不完備性將帶來巨大的過擬合隱患。數(shù)據(jù)的完備性需要考慮目標(biāo)完備性、場景完備性和枚舉完備性3個(gè)方面。目標(biāo)完備性是指采集某些屬性上變化的目標(biāo)數(shù)據(jù),以物體朝向?qū)傩詾槔床杉瘶颖驹诟鞣N朝向時(shí)的數(shù)據(jù);場景完備性是指采集所有場景下的目標(biāo)數(shù)據(jù),如城市、草原、海面等多種場景;枚舉完備性是指枚舉所有場景和目標(biāo)的組合,直接采集所有場景和目標(biāo)的計(jì)算復(fù)雜度是一個(gè)O(M×N),M表示物體在某種屬性下的量化粒度,N表示場景抽象的個(gè)數(shù)。
由此看出,構(gòu)建枚舉完備的數(shù)據(jù)集工作量是成幾何增長的。此外,正確標(biāo)注也是一項(xiàng)艱巨的工作。數(shù)據(jù)的不完備性有導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)陷入過擬合的風(fēng)險(xiǎn)。網(wǎng)絡(luò)對訓(xùn)練樣本表現(xiàn)出了很好的擬合性能,而在實(shí)際應(yīng)用中,訓(xùn)練樣本并沒有很好地覆蓋實(shí)際樣本在某些屬性上的分布,如物體方向,因此,網(wǎng)絡(luò)無法在實(shí)際應(yīng)用中有效工作。以小臉檢測為例,闡述數(shù)據(jù)在方向?qū)傩陨系牟煌陚湫裕ê喎Q“數(shù)據(jù)方向不完備性”)。圖1.3(a)說明街景捕獲的人臉方向幾乎都是類似垂直于地面的;而圖1.3(b)包含其他場景,如跳舞、體育競技等,人臉方向表現(xiàn)出了多樣性。若僅僅使用圖1.3(a)中的數(shù)據(jù)去訓(xùn)練分類器,則分類器具有很大陷入過擬合狀態(tài)的風(fēng)險(xiǎn)。

圖1.3 數(shù)據(jù)方向不完備性示例
1.1.4 科學(xué)問題
在計(jì)算機(jī)視覺的概率解釋中,復(fù)雜場景下的小目標(biāo)檢測與識(shí)別可以被定義為數(shù)據(jù)和標(biāo)簽的聯(lián)合概率分布估計(jì)問題。將背景區(qū)域和目標(biāo)區(qū)域投影至高維空間后,小目標(biāo)由于信息匱乏,會(huì)導(dǎo)致樣本分布可分性差;背景特征會(huì)類似噪聲,穿插在小目標(biāo)特征的分布中;數(shù)據(jù)的不完備性會(huì)導(dǎo)致模型對訓(xùn)練樣本的過擬合。因此,直接進(jìn)行聯(lián)合概率分布估計(jì)十分困難。
本部分將該科學(xué)問題重新定義為樣本在源域特征空間和目標(biāo)域特征空間的概率分布不一致問題(簡稱“分布不一致”)。解決該問題的基本思路是在源域知識(shí)的指導(dǎo)下,修正目標(biāo)域樣本在特征空間的聯(lián)合概率分布,從而提高樣本目標(biāo)域特征的可分性。一方面,源域的知識(shí)分為3個(gè)方面:①引入上下文信息剔除背景噪聲,實(shí)現(xiàn)細(xì)粒度的前景和背景分類,從而完成高精度的前、背景分離;②設(shè)計(jì)信息補(bǔ)償機(jī)制,將高、低質(zhì)量樣本聯(lián)合學(xué)習(xí),增強(qiáng)低質(zhì)量樣本的可分性;③設(shè)計(jì)屬性引導(dǎo)的數(shù)據(jù)增強(qiáng)技術(shù),提升數(shù)據(jù)完備性,降低模型過擬合風(fēng)險(xiǎn)。另一方面,在源域知識(shí)的指導(dǎo)下,在特征空間中修正目標(biāo)域背景和目標(biāo)樣本的分布以擴(kuò)充訓(xùn)練樣本,從而降低聯(lián)合概率分布估計(jì)難度。