官术网_书友最值得收藏!

1.2 估計算法性能評估簡介

1.2.1 概述

隨著信息融合技術的進步與不斷發展,估計問題作為數據融合的重要組成部分,已逐漸成為信息融合理論中不可或缺的技術。在圖像融合、目標識別、目標跟蹤等領域,都離不開估計算法。與大量估計算法的研究形成鮮明對比的,是對這些領域估計算法的評估研究發展相對滯后,這很有可能在將來成為制約估計算法發展的瓶頸。近年來,隨著這一技術被應用于越來越多的領域,對估計技術評估的研究需求變得愈加迫切。舉例來說,在軍事應用的目標跟蹤問題中,估計技術不可或缺,且在很大程度上決定了目標跟蹤系統的性能表現。對估計算法進行性能評估的研究,對于圖像融合、目標識別、目標跟蹤等領域無疑都具有重要意義。

簡言之,估計算法性能評估的提出,既有理論上的必要性,更有實踐中的迫切性。

性能評估是參照一定標準對評估對象的性能優劣進行評判比較的一種認知過程[42],也是推進信息融合技術發展的重要手段。由于信息融合所涉及的應用范圍廣泛,在信息融合的不同級別或層次,就會有不同的評估指標;即使針對同一級別,不同文獻資料中定義的評估度量指標也不相同。目前,信息融合中對估計算法的性能評估,主要有解析分析法、蒙特卡洛實驗法、半實物仿真法、全實物仿真法和實驗驗證法[9][12]

解析分析法是一種理論分析的方法,即通過各種方法建立起關于一個或多個性能評估指標的數學模型,利用解析計算或數值求解得到該信息融合系統的效能評估指標的數值,從而對系統進行評估。該方法不需要大量計算,但缺少普遍使用的解析方法,一般只針對某種具體的方法進行分析評定。

蒙特卡洛實驗法又稱為統計實驗法,它采用統計抽樣理論近似求解實際問題,是通過大量的計算機模擬來檢驗系統的性能并歸納出統計結果的一種隨機分析方法,其理論基礎是概率論中的大數定律。該方法適用于各種情況,是目前信息融合系統性能評估中應用最廣泛的一種方法。

半實物仿真法是一種在室內進行的仿真實驗評估方法,它用硬件和軟件來仿真信源和目標的電磁特性,由計算機控制實驗系統,產生典型實驗環境中的真實信號,把實際的信息融合系統放置在內場半實物仿真實驗工具中,并利用計算機模擬系統工作或運動,以分析和評估信息融合系統的特性。這是一種介于蒙特卡洛實驗法和實驗驗證法之間的方法。

實驗驗證法是把所研制的信息融合模型或系統放到實際應用環境中,通過實際檢驗對多源信息融合系統的性能進行評估。該方法可以客觀、真實、較為全面地反映信息融合系統的效能特性,但成本較高,實現起來相對困難。

信息融合中估計算法的性能評估,其研究內容主要有圖像融合的性能評估[43]、自動目標識別系統的性能評估[49]、目標跟蹤系統的性能評估[52]、對態勢評估的性能評估[59],以及對融合系統的整體性能進行評估[64][65]

在評估估計問題的研究中,盡管之前已有人做了一些工作[18][66],但其研究結果大都片面、零碎,能廣泛應用的非常有限。與估計算法的發展情況相比,目前對評估問題仍缺乏理論上的分析和足夠的重視,很多研究僅僅將估計算法的評估作為研究算法時的附屬品,沒有單獨論述和全面地看待評估問題,因此也缺乏統一的評估標準。

在此領域,近年來涌現了很多新思路,出現了很多新成果。文獻[71-73]指出廣泛使用的均方根誤差度量有諸多缺陷后,提出了幾個可從不同方面揭示估計算法性能的度量指標,并對這些度量指標引入了兩種分類方法:(1)絕對誤差度量(沒有參考量)、相對誤差度量(有參考量)以及頻次統計度量;(2)樂觀(側重于衡量性能有多好)、悲觀(側重于衡量性能有多差)和中立(既不樂觀也不悲觀)的度量。由于絕對誤差度量只側重于反映估計性能的某一方面,文獻[74]對絕對誤差度量指標進行了綜合,提出了誤差譜度量,并對樂觀、悲觀和平衡的度量進行了嚴謹的數學描述。這一度量可以繪出一條曲線,給出各方面的估計性能,同時還給出估計誤差分布的相對期望水平。文獻[75]對誤差譜度量的性質和計算做了更進一步的研究,提出了通過梅林(Mellin)變換來解析計算誤差譜。不同角度的性能比較可以在實踐中幫助工程人員根據應用場景選擇適合的估計器,文獻[76, 77]基于估計誤差聚集度的概念,首先根據應用需求選擇一個理想的誤差分布,提出了相對于理想誤差分布的相對聚集度度量與相對離散度度量;同時還考慮了用Pitman準則進行估計器性能比較,提出了利用估計器之間互信息的相對損失度量和相對增益度量。文獻[78]對估計誤差的中心趨勢進行了評估,并提出了廣義的加權平均歐幾里得誤差(Generalized Weighted Average Euclidean Error),該度量方法在度量估計誤差中心趨勢方面表現出了很好的穩健性。同時,文獻[79-81]提出了估計器的可信度度量,以評估估計器所給出的估計誤差協方差矩陣是否可信,并提出了檢驗可信度度量的準則—— NCI(Noncredibility Indices,不可信度指標)和II(Inclination Indicators,傾向性指標)等。文獻[82, 83]應用了NCI這一可信度度量準則。文獻[84]提出了用所謂的估計器排序矢量,考慮估計器之間的互信息,對估計算法進行排序。

由于對估計問題的度量近幾年才慢慢得到重視,各種度量方法在理論上和應用上都有很多不完善的地方,因此需要國內外學者進行更加深入的探索和研究。相信在不久的將來,該領域一定會取得更加豐碩的成果。

1.2.2 性能評估理論中的基本概念

對估計問題的性能評估,其首要任務是建立起性能評估指標體系和性能評估方法,而性能評估指標體系的建立和評估方法的開展,必然離不開對估計算法和性能評估理論的合理理解。所以,有必要首先介紹一下估計性能評估領域中的幾個基本概念:性能評估、性能優化、性能分析。

在工程和應用科學研究中,一般認為有四個要素:問題、描述、求解和評估[85]。第一個要素是提出問題、確定問題、弄清問題;第二個要素是對提出的問題進行理論描述或建模,尤其是數學描述;第三個要素是在描述好的框架里通過各種技術手段進行求解,由于在研究中用到的描述往往有差異,而求解時用到的技術也往往不同,所以當某些理論假設在實際中不成立時,常常得不到最優解,取而代之的往往是次優解;而第四個要素研究的內容是對所求得的解的好壞優劣進行性能評估。

首先需要說明的是性能評估、性能優化、性能分析三者的關系;它們彼此緊密結合在一起,卻又有著內在的不同。簡單來說,性能優化是基于理論上的準則(即目標函數,通常是基于費用或者代價的數學描述),使目標函數值達到最優,并找出目標函數的最小值或最大值的過程;性能評估是基于設計好的性能度量準則對系統或者估計參數等進行優劣評定;而性能分析旨在開發一個性能模型,對影響系統性能的各因素進行內在的分析,以發現系統的潛在問題或者對系統的內部性能有較好的把握。

實際中的性能評估指標與進行性能優化時所用到的優化準則有著緊密的關系,它們都從某種意義上反映性能的優劣,但彼此又有區別[86]。性能評估度量就像一把量化性能的尺子,而優化準則在某種意義上定義了一個問題的解的最優性。優化準則作為開發和設計算法的基礎,把估計問題轉化成了優化問題;因此,相對嚴格的要求是它應當具備數學上的可解性,否則在優化時用起來將很困難。粗略地講,大部分的優化準則作為估計器要優化的目標函數,應當具備數學上的可解性,而不僅僅是理論意義上的性能度量;但作為性能評估時用到的性能度量則完全不考慮這一點。

性能分析和性能評估之間同樣有差異。性能分析所關心的是性能和影響性能好壞的因子之間的內在關系,一般通過定性或定量的分析,了解系統的各個因素對性能的影響,因而依賴于分析工具。目前,“性能分析”的概念在軟件工程中用得相對較多。性能分析是以收集程序運行時的信息為手段研究程序行為的分析方法,是一種動態程序分析的方法。其目的在于決定程序的哪部分應該被優化,從而提高程序的速度或者內存使用效率,可由程序的源代碼或是可執行文件來執行。而性能評估旨在客觀地對性能或者行為進行評估,它依賴于性能度量的指標,要求這些指標可計算、有公正性,且能很好地解釋。

1.2.3 性能評估指標分類

1.絕對度量、相對度量與頻次統計度量

在估計算法性能評估的研究中,現有的評估方法大多不參照任何參考量,而直接對估計誤差做某種意義上的平均。我們稱這一類指標為絕對誤差度量。其中,廣泛應用的均方根誤差(Root Mean Square Error, RMSE)很容易受大的誤差值主導,即在評估結果中過于關注大的估計誤差。為了克服這一缺點,文獻[71-73]提出了一些新的可供選擇的絕對度量指標,如調和平均誤差(Harmonic Average Error, HAE)、幾何平均誤差(Geometric Average Error, GAE)、平均歐幾里得誤差(Average Euclidean Error, AEE)、誤差中位數(Median Error)和誤差的眾數(Mode)。

但是,在對估計算法進行評估時,這些度量指標明顯受評估時具體場景的影響,包括估計量的幅值、數據精度,以及在估計器為貝葉斯估計器時的先驗信息。因此,絕對誤差度量指標適用于對整個估計系統的評估,而對估計算法的評估則不很理想。這里指的估計系統不僅僅包括估計算法,還包括量測子系統以及別的相關量。記x分別為待估量和估計量,估計誤差為,則當絕對估計誤差為時,相對估計誤差在待估量x=100時為1%,但在待估量x=2時卻為50%。所以,相對估計誤差度量更適合于估計算法的性能評估。

相對誤差度量是相對于某一個參考量的,正如文獻[73]指出的,相對誤差常比絕對誤差能更好地揭示估計器估計誤差的內在特征。舉例來說,隨著估計量幅值的變化,期望一個估計器的相對誤差比絕對誤差更穩健是很容易讓人接受的。給定兩個問題各自的估計器和它們的性能,或者同一問題的不同場景,使用絕對誤差度量來進行性能比較將是不合適的,但相對誤差度量可以滿足要求。因此,評估一個估計算法的性能一般應當使用相對于某一參考量的評估準則。在參考量的選取上,有很多方法:最常用的參考量是待估量的幅值x;還可以選擇量測誤差,或者先驗均值的誤差。描述估計誤差相對于某一參考量的最簡單、最常用的方法,是采用相對于某一參考量的歸一化。對任一參考量,都有兩種形式:估計誤差的平均/參考量的平均;估計誤差/參考量的平均。這里的參考量可以是估計的幅值、先驗誤差、量測誤差等。

絕對誤差度量和相對誤差度量常常是估計誤差在某種意義上的絕對或相對的平均;而不同角度的性能比較可以幫助工程人員得到更好的理解,以選擇更好、更符合需求的估計器。以軍事應用中導彈攔截或者摧毀目標為例,其所關心的不是平均誤差,而是估計量應當在被估量的一個鄰域內才能保證目標被擊中。考慮兩個估計器:一個估計器的大部分估計值都在一個被估量期望的鄰域內,但有少數值存在很大的誤差;另一個估計器有很好的平均誤差,但不能保證鄰域內的估計量足夠多。顯然,第一個估計器更能符合要求。此時,頻次統計度量就可以滿足要求。

頻次統計度量包括成功域與成功率、可行域與失敗率,以及聚集域與估計值落在聚集域內的概率(聚集概率)[72][73]。此類度量指標可以刻畫估計誤差落在某一區域的概率大小,適用于Hit-or-miss場景下的評估。

上述三類度量指標在實際中的適用范圍如表1-1所示。

表1-1 度量指標的適用范圍

2.悲觀、樂觀和中立的度量

如果一個度量受大的誤差主導,就說這個度量是悲觀的。換句話說,悲觀的度量總是關注估計器某些差的方面的性能,即總是低估估計器的性能。樂觀的度量正好與此相反,它受小的估計誤差主導,所反映的是估計器好的方面的性能。而一個中立的度量則既不受大的誤差主導,也不受小的誤差主導,在給出評估結果時能同等考慮估計器好的性能和差的性能。舉例來說,如文獻[73]所述,工程界廣泛使用的RMSE度量就是一個悲觀的度量;調和平均誤差(HAE)是一個樂觀的度量,因為它總是關心較小的估計誤差;我們常說的估計誤差集合的中位數(又稱中值)和估計誤差的眾數(Mode),既不受大的估計誤差主導,也不受小的估計誤差主導,因而是中立的度量。

3.綜合的度量

因為RMSE、AEE、HAE、GAE等準則只側重于反映估計性能的某一個方面,在比較兩個估計器的性能時,它們甚至會給出相悖的比較結果。也就是說,給定兩組估計誤差A和B,用一個度量評估時A組好,但換為另一個度量時可能評估結果反而是B組好。因此,需要一個綜合的指標,以對被評價對象進行客觀、公正、合理、全面的評價。例如,如果要對我國各大學進行綜合排名,就要對學校的教學質量、科研成果、師生素質和規模等進行多方面衡量;同樣,要判斷一個國家或地區發展的好壞,就要從經濟、政治、文化、生態、人民生活等方面進行考察,建立相應的指標,采用一定的數學方法,進行綜合比較與判斷。

在現有的估計算法度量指標中,誤差譜度量[74]就是一個綜合性的度量。誤差譜度量相比于絕對的性能評估準則,其優越性在于它是一個綜合性的度量。誤差譜度量可以綜合考慮大的和小的估計誤差,所以在期望對濾波器的性能有一個公正、綜合的評估,即評估結果既不受小的誤差值主導,又不受大的誤差值主導時,就必須用誤差譜這一綜合性的度量指標。

在估計算法性能評估問題中,誤差譜度量因其可以從多個角度同時揭示估計性能,可以同時反映估計器好的性能有多好以及差的性能有多差,因而是一個非常有效的度量;但由于它是針對參數估計的,有其應用上的局限性。在估計跟蹤問題中,待評估的系統通常是動態系統,即系統狀態是隨著時間變化的。如何對動態系統進行評估并找到一個更加有效的度量方法呢?有學者提出動態誤差譜(Dynamic Error Spectrum, DES)度量的概念;這一度量把同一時刻的多個評價指標“合成”為一個整體性的度量,因而在對動態系統進行評估時,它是非常有效的。

主站蜘蛛池模板: 西林县| 镇宁| 吴桥县| 龙门县| 馆陶县| 龙游县| 辉县市| 如皋市| 宁安市| 呼图壁县| 和田县| 托克逊县| 左权县| 务川| 墨玉县| 上栗县| 梅河口市| 保亭| 浦东新区| 任丘市| 日土县| 聊城市| 宝坻区| 临夏县| 全椒县| 金塔县| 武宁县| 达孜县| 鄂托克旗| 峨眉山市| 香港 | 阳高县| 循化| 麟游县| 东丰县| 阳江市| 修文县| 聂拉木县| 临安市| 东台市| 徐州市|