官术网_书友最值得收藏!

第一部分 復雜場景下的小目標檢測與識別方法研究

第1章 緒論

1.1 研究背景及意義

1.1.1 研究意義

深度學習技術極大地促進了人工智能領域的發展,如計算機視覺、自然語言處理和語音識別等。深度學習技術為傳統理想環境下對物體檢測與識別技術的研究帶來了革命性的發展。檢測與識別技術正在改變人們的生活,如人臉識別已經廣泛應用于人臉支付等領域,車牌識別已經應用于門禁和高速收費站等場景。上述應用場景都屬于理想環境下的目標檢測和識別場景,該類場景背景相對單一,目標分辨率有保障,還可通過紅外補光的手段來保障相對穩定的光照條件。但是在更為普適的開放環境下,此類系統往往會因拍攝角度、目標尺寸、環境變化等的限制,而無法正常工作。因此,復雜場景下小目標的檢測與識別是計算機視覺領域的新興熱點方向。

普適的目標檢測與識別是復雜場景下的小目標檢測與識別問題,該研究存在3個層面的挑戰。一是環境的復雜性,系統需要在各種非理想的、開放的環境下正常工作,因此,無法做單一背景假設。二是目標特性的復雜性,待檢測與識別的目標具有尺寸不確定性、分布擁擠、分辨率低等特點。三是數據的不完備性,首先對于某些特定應用領域的數據獲取困難,如軍事偵察;其次,即使可以獲取大量數據,但由于場景和目標的多樣性,枚舉所有場景和目標并完成正確標注也是一項艱巨的工作,數據不完備將帶來巨大的過擬合隱患。環境的復雜性、目標特性的復雜性、數據的不完備性等因素,容易使小目標檢測與識別趨向于提取表形更顯著的背景特征,而小目標的本質特征則被淹沒于背景特征之中。

復雜場景下的小目標檢測與識別研究將大大拓展計算機視覺技術在民用領域的應用,現有大量已部署的檢測與識別系統,包括視頻監控系統、人臉考勤識別系統和車牌識別系統。這類場景往往背景固定,并且感興趣區域的尺寸大,具有豐富的細節信息。但是上述檢測識別系統很難處理復雜場景下的檢測與識別任務,如自動駕駛、視頻監控和智能無人機。自動駕駛系統必須具備準確感知遠方小尺寸物體的能力,該系統應能及時發現潛在危險目標,盡早采取措施,盡早檢測到小尺寸物體,如行人、車輛及交通標示牌等,以有效地降低惡性交通事故發生的風險。交通標示牌識別技術可以幫助車輛更加安全穩定地行駛。大規模視頻監控系統應能夠準確地檢測擁擠場景(如地鐵、機場等)下小尺寸的人臉,能并快速、準確地發現感興趣人員的身份。無人機拍攝的影像存在大量小目標,無人機系統若能檢測識別這類目標,將對災害發生后快速部署救災力量、高效搜救受災人員起到至關重要的作用。復雜場景下小目標的檢測與識別技術就是為了解決上述應用中最重要的問題:如何在圖像中準確找到小尺寸物體和判斷它們的類別。圖1.1展示了復雜場景下小目標檢測與識別典型應用的示例,算法成功預測了小尺寸行人、人臉、車輛等的位置和尺寸,并給出了對應的類別和置信度。

圖1.1 復雜場景下小目標檢測與識別典型應用的示例

圖1.1 復雜場景下小目標檢測與識別典型應用的示例(續)

在軍事應用方面,環境的復雜性、目標特性的復雜性及數據的不完備性正是制約計算機視覺技術應用的瓶頸。從衛星態勢感知、導彈末端制導,到單兵智能裝備,均離不開復雜場景下小目標檢測與識別技術。現代戰爭需要通過衛星對地面進行觀測,從而進行戰場態勢感知。衛星捕獲的圖像包含復雜的物體,如港口、艦船和云層等;感興趣的目標也存在多樣性:大尺寸的物體,如港口;小尺寸的物體,如艦船、塊狀的云層。復雜的地面物體特征和多樣性的地面物體目標是準確進行戰場態勢感知的主要挑戰。另外,為滿足武器系統迅速精確打擊敵方目標的要求,就必須在超遠距離下捕獲敵方目標。遠距離目標在光學成像平面上僅占幾像素,無形狀和結構特征、強度較弱,且在實戰環境中經常藏匿于復雜背景中,十分容易受到沙塵、霧霾、雨雪等復雜天候的影響。而且單兵智能裝備,如車輛、飛機和作戰頭盔等的更新升級也離不開小目標檢測與識別技術。面對匿蹤于復雜背景中的敵方目標,輔助駕駛系統需要提供有效的威脅預警機制,讓駕駛員在保持安全的前提下,集中精力完成主要任務。

1.1.2 研究現狀

1.小目標檢測與識別

自20世紀60年代起,目標檢測與識別領域經歷了從指紋識別、考勤打卡等相距較近的檢測識別[2,3],到無人車和無人機等相距較遠的檢測識別[4-7],再到衛星成像的小目標檢測識別[8-11]的發展過程。小目標檢測與識別的方法分為:圖像尺度變換、多尺度特征融合、上下文信息編碼和匹配策略[21-23]

基于圖像尺度變換的方法是在多個原始圖像尺度上進行操作,從而提升算法對小目標的檢測效果的。DetNet[22]網絡采用了一種空洞卷積結構,通過保持空間分辨率和擴大感受野,避免了過多的下采樣操作,提升了神經網絡檢測小目標的能力。PGAN[23]生成網絡是一個深度殘差特征生成模型,引入了低層次細粒度特征,通過感知損失約束來提升物體檢測率。基于圖像尺度變換的方法的缺點在于其計算量較大,對計算機算力和內存要求較高。基于多尺度特征融合的方法融合了神經網絡的深層特征和淺層特征,綜合考慮了強位置特征和強語義特征,從而來提升模型效果的小目標檢測方法。FPN[21]網絡不僅上采樣深層特征,使其與淺層特征圖大小一致,從而能夠進行特征圖堆疊,而且對每個卷積模塊的最終特征圖采用1×1卷積核進行降通道操作,可減少特征圖的個數,從而顯著提升小目標的檢測效果。基于多尺度特征融合的方法得到的特征往往很難解釋,結果通常不可控。基于匹配策略的方法是通過調整合適的并交比(IoU)來提高算法檢測小目標的能力。級聯R-CNN[25]網絡有多個IoU閾值遞增的header,每級使用上一級微調后的bbox作為輸入,保證每級的header都可以得到足夠多質量可以逐級提升的正樣本。ALFNet[26]利用不斷提升的IoU閾值訓練多個定位模塊,來達到提升定位精度的目的。基于匹配策略的方法通過調整IoU閾值,雖然能在一定程度上提升小目標檢測能力,但提升程度終究有限。上下文信息在目標檢測中起著重要的作用[35-38]。ION[24]結合感興趣區域的內部信息和外部信息,通過空間遞歸神經網絡將上下文特征結合在一起,提高了小目標檢測的準確率。基于上下文信息的方法難點在于如何高效地訓練和推理,以準確選取和利用小目標上下文信息來輔助檢測。

2.小目標檢測與識別的發展趨勢

小目標檢測與識別領域主要的發展方向包括信息補償、多尺度區域推薦[27-29]

(1)信息補償。低分辨率極小目標的識別難度非常大,其難點在于原始信號本身攜帶了很少的信息量,信息補償是解決該問題的根本途徑。在識別或分類之前,信息補償嘗試重建高分辨率感興趣區域,來補償圖像丟失的信息。文獻[109]提出了一種跨域聯想的網絡,用來恢復圖像細節,并增強低分辨率圖片的質量。文獻[98-110]利用低分辨率圖像生成了逼真的高分辨圖像,用于圖像分類任務。但是,該技術的主要缺點是上述方法是重建出來的超分圖像,可能包含嚴重的失真區域,尤其是當原始圖像分辨率很低時。也就是說,低分辨率圖像損失了大量信息,使其無法直接從低分辨率圖像中提取出足夠可識別特征。

(2)多尺度區域推薦。當前,大多數檢測器是基于錨點的方法,這類目標檢測器存在一些嚴重的缺陷,這些缺陷限制了檢測的準確性。當前的錨點先驗主要是手動設計的,很難匹配多尺度對象。盡管已經提出了一些方法來將基于錨點的方法轉換為無錨的方法,如基于關鍵點的方法;但是仍然存在一些局限性,如高計算成本等,不過依然有很大的改進空間。錨點缺失的方法已經成為對象檢測中非常熱門的話題[30-34],將來,設計有效的候選區域生成策略可能是非常重要的研究方向。

對象通常傾向于出現在特定的環境中,有時也與其他對象共存。對于每個實例,鳥類通常都會在天空中飛翔,車輛通常在地面上行駛。有效地使用上下文信息可以幫助提高檢測性能,特別是對于檢測線索不足(小物體,遮擋物等)的物體而言。學習物體與周圍環境之間的關系可以提高檢測器對場景的理解能力,這對于更好地了解視覺世界至關重要。但是,很少重視如何正確編碼上下文信息。

1.1.3 困難挑戰

復雜場景小目標檢測與識別研究的挑戰總結為以下3個:

挑戰一,環境的復雜性是計算機視覺中實驗室理論結果與實際應用效果存在巨大差異的核心原因之一。現有大量已部署的檢測與識別系統往往會固定背景,而實際應用中拍攝的背景通常充滿復雜變化。這種復雜變化一方面來自相機的自身移動,如衛星、無人機和車輛載具等;另一方面來自成像條件的改變,如雨、雪、霧等惡劣天氣。復雜場景下的小目標檢測與識別本質上是背景淹沒前景,所以導致前背景難分離,如大浪中的小船、濃霧中的小飛機。圖1.2所示為遙感圖像中,濃霧天氣下的飛機檢測,圖1.2(f)中的圓圈內為漏檢的飛機。

挑戰二,目標特性的復雜性給物體檢測識別帶來了巨大的挑戰。物體本身尺寸、顏色、形狀和紋理等方面的變化都會增加物體的類內差異,從而對物體的識別造成困難。已有的工作都集中在較大尺寸的目標上(大于64像素×64像素),而本書重點研究小尺寸目標(小于16像素×16像素)。另外,深度學習固有的層次結構及錨點結構使處理小目標更加困難。第一,層次結構導致信息流失。區別于常規尺寸的目標,微小尺寸的目標經過多次卷積和池化后,會發生卷積特征減弱甚至消失的問題,導致小目標檢測陷入困境。具體來說,微小目標本身在成像特性方面,極端天候導致微小目標所在區域缺乏豐富細節信息,稱為第一次信息流失。在神經網絡內部,池化和非線性激活結構會加劇信息流失。兩個階段的信息流失使得微小目標識別極其困難。第二,錨點參數設置,如步長和尺寸。首先,目標小尺寸與錨點大步長的矛盾,小目標尺寸通常為16像素×16像素,錨點步長通常為8像素或16像素,加上池化層對感興趣區域特征圖的降采樣,會導致小目標的特征圖很容易被忽略;其次,CNNs感受野、錨點及小目標的尺寸不匹配;再次,如果感興趣物體的尺寸與錨點的尺寸接近,則會有較多錨點與之匹配,否則,錨點會非常少;最后,與常規物體檢測相比,小目標檢測會帶來更多虛警錨點,導致小目標的誤檢率提高。

圖1.2 遙感圖像中,濃霧天氣下的飛機檢測

挑戰三,數據的不完備性將帶來巨大的過擬合隱患。數據的完備性需要考慮目標完備性、場景完備性和枚舉完備性3個方面。目標完備性是指采集某些屬性上變化的目標數據,以物體朝向屬性為例,即采集樣本在各種朝向時的數據;場景完備性是指采集所有場景下的目標數據,如城市、草原、海面等多種場景;枚舉完備性是指枚舉所有場景和目標的組合,直接采集所有場景和目標的計算復雜度是一個O(M×N),M表示物體在某種屬性下的量化粒度,N表示場景抽象的個數。

由此看出,構建枚舉完備的數據集工作量是成幾何增長的。此外,正確標注也是一項艱巨的工作。數據的不完備性有導致深度學習網絡陷入過擬合的風險。網絡對訓練樣本表現出了很好的擬合性能,而在實際應用中,訓練樣本并沒有很好地覆蓋實際樣本在某些屬性上的分布,如物體方向,因此,網絡無法在實際應用中有效工作。以小臉檢測為例,闡述數據在方向屬性上的不完備性(簡稱“數據方向不完備性”)。圖1.3(a)說明街景捕獲的人臉方向幾乎都是類似垂直于地面的;而圖1.3(b)包含其他場景,如跳舞、體育競技等,人臉方向表現出了多樣性。若僅僅使用圖1.3(a)中的數據去訓練分類器,則分類器具有很大陷入過擬合狀態的風險。

圖1.3 數據方向不完備性示例

1.1.4 科學問題

在計算機視覺的概率解釋中,復雜場景下的小目標檢測與識別可以被定義為數據和標簽的聯合概率分布估計問題。將背景區域和目標區域投影至高維空間后,小目標由于信息匱乏,會導致樣本分布可分性差;背景特征會類似噪聲,穿插在小目標特征的分布中;數據的不完備性會導致模型對訓練樣本的過擬合。因此,直接進行聯合概率分布估計十分困難。

本部分將該科學問題重新定義為樣本在源域特征空間和目標域特征空間的概率分布不一致問題(簡稱“分布不一致”)。解決該問題的基本思路是在源域知識的指導下,修正目標域樣本在特征空間的聯合概率分布,從而提高樣本目標域特征的可分性。一方面,源域的知識分為3個方面:①引入上下文信息剔除背景噪聲,實現細粒度的前景和背景分類,從而完成高精度的前、背景分離;②設計信息補償機制,將高、低質量樣本聯合學習,增強低質量樣本的可分性;③設計屬性引導的數據增強技術,提升數據完備性,降低模型過擬合風險。另一方面,在源域知識的指導下,在特征空間中修正目標域背景和目標樣本的分布以擴充訓練樣本,從而降低聯合概率分布估計難度。

主站蜘蛛池模板: 云林县| 金秀| 图木舒克市| 大关县| 丰顺县| 宁远县| 大洼县| 包头市| 丹东市| 内乡县| 玉溪市| 密云县| 庆安县| 三台县| 庆城县| 格尔木市| 荣昌县| 晋城| 当雄县| 通化市| 柘荣县| 襄樊市| 安多县| 久治县| 兰州市| 清镇市| 辰溪县| 浠水县| 固镇县| 偃师市| 九台市| 珠海市| 新郑市| 垣曲县| 阜城县| 建水县| 林甸县| 富民县| 塔城市| 芜湖县| 抚顺县|