官术网_书友最值得收藏!

1.4 JND模型與顯著性模型

1.4.1 JND模型

為了能在實際的計算機視覺系統中利用人類視覺系統的特性,就要求有定量的模型來模擬人類視覺系統。JND(Just Noticeable Distortion)模型就是一個用來衡量人類視覺系統對定量變化的敏感程度的度量。它表示在一定條件下,人類視覺對觀察對象出現變化所能容忍的最大程度的變化量,若對象(如圖像)或者視頻的變化超過這個值,則人類視覺系統能察覺到其變化。JND模型的基礎來自人類視覺模型,它通常與頻率掩蔽因子(Frequency Masking)、亮度調節因子(Luminance Adaption)、差異掩蔽因子(Contrast Masking)和時域掩蔽因子(Temporal Masking)4個因素相關。

(1)頻率掩蔽因子:指人眼對不同頻率進行光柵分解后得到正弦波的敏感程度。對于人類視覺模型,假定最小的可視距離是固定的,那么就可以對每個頻率段確定一個靜態的JND閾值。頻率掩蔽因子是一個最基本的視覺模型,獨立于視頻圖像的內容,僅依賴于視角條件。

(2)亮度調節因子:指在連續背景下對噪聲監測閾值的衡量。在人類視覺模型中,它是一個非線性函數并依賴于局部的圖像特征。一般而言,背景越亮或者越暗,人眼對該區域的敏感程度就越低,這就是亮度掩蔽特性。

(3)差異掩蔽因子:指在一種信號集中區域中對另一種信號進行檢測的能力。簡單地說,背景紋理越復雜,人眼的敏感程度就越低,這就是紋理掩蔽特性。本質上講,它允許對JND閾值的等級進行更為動態地控制。

(4)時域掩蔽因子:指衡量人眼對處于某個運動狀態的物體的噪聲的察覺閾值,這是專門針對視頻而引入的因子。一般而言,人眼對運動越快的物體的變化越不敏感。同時,對于不同運動方向的物體上的變化的敏感程度也不一樣。一般而言,對于水平和垂直方向上運動的物體的變化更為敏感。

1.4.1.1 DCT域的JND模型

最開始,JND模型的應用在DCT域上。起源可以追溯到1991年,當時Peterson等人為了使圖像壓縮率變大,提出了一種將DCT系數量化的方案。他們認為DCT是由一組基函數構成的,在每個位置上的DCT系數代表了相應的基函數的權值,而人類視覺系統對每個基函數的敏感程度是不一樣的,因此在保證人類視覺系統對壓縮后的圖像察覺不到有任何質量下降的前提下,每個DCT系數在壓縮過程中所需的量化步長也是不一樣的。他們設計了一種生理實驗,并最終確定了DCT的每個系數最大允許改變多少使人眼察覺不出這種變化,進而確定出每個系數能夠達到的量化步長。其主要貢獻在于確定了人眼對不同空間頻率的敏感程度是不一樣的。這從圖2.8中的8×8 DCT變換的基矩陣就可以表現出該特性,越往圖的右下角,基函數的變化頻率越高。

1992年,Ahumada為DCT變換的空間頻率建立數學模型,并指出亮度對人類視覺系統也是有影響的,故著手開始建立DCT域的JND模型。隨后,Watson建立了一個一般化的JND模型,他引入了亮度調節因子和差異敏感系數,他徹底將JND模型化,為JND的發展鋪平了道路。Tong又在1998年改進了Watson的差異敏感模型,他通過統計DCT變換塊的直流、低頻、中頻及高頻系數將塊分成平面(Plain)、邊緣(Edge)和紋理(Texture)三類,然后以這三類來計算人類視覺系統的差異敏感系數。Zhang等人又在2005年通過大量生理實驗,改進了Watson模型中的亮度調節因子。他指出人類視覺系統不是對越亮的地方越不敏感,而是對較暗和較亮的地方都不是很敏感,亮度調節因子呈現的是一個“U”形曲線,這是一個更符合實際情況的模型,如圖1.8所示。圖中實線代表Watson模型中亮度調節因子曲線,虛線代表Zhang提出的亮度調節因子曲線。

img

圖1.8 亮度調節因子曲線對比圖

Jia在2006年將JND模型引入了視頻領域,并結合了播放幀率、運動物體在視網膜上的速率及實際運動的速率等因素,建立了時域掩蔽效應模型,開辟了JND模型在視頻領域發展的道路。Wei在2009年重新更新了Jia的模型,他將JND模型清晰地分為4個部分:頻率掩蔽因子、亮度調節因子、差異掩蔽因子和時域掩蔽因子。在頻率掩蔽模型上,他認為并不是頻帶越低,人眼就越對這個頻帶敏感,而是一個倒“U”形的曲線,如圖1.9所示。在計算亮度調節因子時,他考慮了顯示器顯示時造成的色差的因素,引入了Gamma校正,重新改進了原有的亮度調節模型。而在計算差異掩蔽效應時,他又改進了原有的模型,因為原來的模型只給出了8×8塊的高、中、低頻系數的劃分,若換成其他大小的塊,則又需要靠實驗數據來重新劃分這些系數,不具有擴展性。改進的模型依靠Canny算子來計算邊界,并依靠每塊中含有的平均邊界信息來對塊進行分類,這樣就使得該模型具有了較好的擴展性,如圖1.10所示,圖中黑色代表平坦區域,灰色代表邊緣區域,白色代表紋理區域。而在建立時域掩蔽模型時,他又在Jia模型的基礎上,考慮運動物體的運動方向,他指出即使物體運動幅度相同,但是不同的運動方向也會給人類視覺帶來不同的影響。

img

圖1.9 頻率掩蔽系數曲線圖

img

圖1.10 利用Canny算子進行塊分類

1.4.1.2 DCT域的JND模型計算

模型結合了空間CSF、亮度調節效應和差異掩蔽效應。根據該模型,視頻序列中一幀圖像的第n個大小為N×N塊中位置為(ij)所對應的JND值TJND可表示為

img

其中,i,j∈[0,N-1],TBasic表示為空間CSF,也稱為頻域敏感度。FM代表調節因子,是FlumFcontrast的乘積。FlumFcontrast分別表示為亮度調節因子和差異掩蔽因子。其基本原理如前面介紹,下面分別介紹這幾個因子的具體計算方法。

關于空間CSF的TBasic計算。經實驗測定,人眼對比閾限是隨空間頻率改變而改變的,即它是空間頻率的函數,稱之為CSF。人眼在空間頻率域具有帶通性,研究者提出了各種各樣的CSF模型。Ngan和Nill等提出的由人類視覺系統模型產生的空間CSF曲線如圖1.11所示。頻率敏感函數Hω)可表示為

img

其中,ω表示頻率(單位:周/度),abc為常數。

由式(1.5)定義的敏感度模型與Yao Wang等定義的基于對比敏感的失真門限成反比關系可知,對于一個特定的空間頻率ω,基本的JND閾值Tω)是頻率敏感度函數Hω)的倒數,即

img

Zhen Wei對于TBasic的計算在式(1.6)基礎之上進行了改進。在8×8塊中位置(i,j)對應的頻率ijω

img

其中,θxθy分別表示水平和垂直視覺角度,即

img

其中,Pich表示圖像的高,Rvd表示觀察距離和圖像的高的比值,取值范圍為3~6。

img

圖1.11 空間CSF曲線

在塊中(i,j)位置的DCT分量的方向角φij是頻率ωij的函數,即

img

所以TBasic的計算公式為

img

其中,srabc是常數,取值分別為0.25,0.6,1.33,0.11,0.18。φi,φj是DCT歸一化因子,根據式(1.10)計算,則有

img

關于亮度調節因子Flum的計算。根據Weber-Fechner定律,最小感知亮度差隨著背景亮度增大而增大,這稱為亮度自適應效應。Weber-Fechner定律說明亮度越大,JND也應該越大,人眼對亮度對比度的敏感度遠高于對絕對亮度的敏感度。但是一般JND閾值的計算,我們默認亮度調節值為128的情況下亮度調節因子Flum為1,所以Flum應該是亮度值的一個U型曲線(見圖1.8)。即亮度調節因子Flum在亮度值越小或越大的區域,值應該越大,在中間區域其值越小。Flum的計算公式為

img

其中,img表示塊的平均亮度值。

關于差異掩蔽因子Fcontrast的計算。基于塊分類的差異掩蔽效應,在這里我們在視頻圖像的亮度成分上利用Canny算子對塊進行分類。Canny邊緣檢測算子是John F.Canny于1986年開發出來的一個多級邊緣檢測算法。眾所周知,Canny算子是一個非常典型的邊緣檢測算子,具有很好的邊緣檢測性能。對于給定的圖像,它能夠精確地檢測到邊緣像素點。圖1.12顯示的就是通過Canny算子檢測出來的city_4cif視頻序列中第一個視頻幀的邊緣。

img

圖1.12 通過Canny算子檢測出來的city_4cif視頻序列中第一個視頻幀的邊緣

若檢測出來的邊緣點是稀疏的,則我們認為這個區域是平坦的區域;若檢測出來的邊緣點數目比較多,則認為這個塊紋理細節比較多,有很多的高頻能量,我們認為該塊是紋理區域。所以根據邊緣點的密度,我們可以把塊劃分為三類:平面塊(Plane)、邊緣塊(Edge)、紋理塊(Texture)。用ρ表示該塊邊緣點的密度,計算公式為

img

其中,#ep是該塊中邊緣點的數目。塊的類別由公式(1.14)決定,即

img

其中,α β、取值分別為0.1、0.2。

圖像的邊緣信息對視覺很重要,特別是邊緣的位置信息。人眼容易感覺到邊緣的位置變化,而對于邊緣的灰度誤差,人眼并不敏感。人們通常對平面區和邊緣區的失真比較敏感,所以應該保護在平面塊和邊緣塊中的信息。而對于紋理塊,人眼對低頻失真的敏感度不如高頻失真敏感,如紋理塊的塊效應,所以紋理塊的高頻信息需得到更多保護。基于以上考慮,各類型的塊的修正因子Ψ可表示為式(1.15),其中(i,j)為塊中的位置(i,j=0~7)。結果參見圖1.10。

img

最終的差異掩蔽因子Fcontrast

img

Cn,i,j)為第n個塊中位置為(i,j)的DCT系數。調節因子FMFlumFcontrast得到,見公式(1.3)。

1.4.1.2 DWT域的JND模型

與DCT變換比較,DWT具有更好的頻率劃分和能量集中特性,其良好的時頻分解特性更符合人類視覺系統的特點。在DWT域內,不僅要考慮頻帶、亮度及紋理對JND的影響,而且即使是在相同頻帶上,人眼對不同方向的噪聲的敏感程度也不一樣(人眼對斜對角方向的敏感程度比水平和垂直方向上的敏感程度低),故在計算頻率敏感程度時,還必須綜合考慮頻帶、方向等因素對人類視覺系統的影響。

小波域JND模型的引入是為了在保證水印不可見性的基礎上,盡可能地提高水印的魯棒性。前文已經說明,影響JND的因素有4個,我們使用這4個因素來計算小波域的JND,即

img

其中,FM(Frequency Masking)是頻率掩蔽因子,表明人眼對高頻部分中的邊界變化不是很敏感,但是對低頻中比較平緩的區域發生的變化卻相當敏感。

可以使用一些經驗值來表示各個頻帶的掩蔽因子,即

img

其中,l是小波變換的層次,θ表示角度,如圖1.13所示。

CM(Contrast Masking)表示差異掩蔽因子,它表明人眼對紋理比較豐富和邊界區域的變化比較不敏感,而對平緩區域的變化卻很敏感。這個因素可以從兩個方面來考慮:①小波變換的高頻區域包含了比較多的紋理信息,這表明紋理比較豐富或者邊界區域的數值會比周圍的數值大或者小很多,為了消除負數的影響,采用求平方和的方法來表示相應位置的紋理信息;②為了表示某個位置差異掩蔽因子,需要在小波變換后的低頻部分中,以方差的形式表示某點與其周圍區域的差異程度,為了消除小波低頻系數過大的影響,要將其映射到0~255之間。由于小波變換的多分辨率特性,因此每層的鄰域大小是不一樣的,隨著級數的增加,鄰域的范圍也會變小,如圖1.14所示。CM計算公式為

img

其中,L是小波變換的層數,也可以理解為圖像空域分層的層數,Var表示求方差。圖1.15是利用這種規律嵌入水印(可以理解為修改這部分的小波系數)后的比較圖,左圖是原圖,右邊的上面一行是在第一層的某個子帶中通過修改系數后的結果,第一幅是嵌入水印后的圖像,第二幅是差分圖,第三幅則是將差分信號放大20倍后的圖像,可以發現改變的區域都是在圖像紋理比較豐富的區域,因此并不影響圖像的視覺質量;右邊的下面一行則是在第0層的某個子帶中進行了小波系數的修改,由于第0層包含了更多的邊緣信息,因此變化的幅度相對更大一些,但是也并不影響視覺質量。

img

圖1.13 小波變換中各頻帶示意圖

img

圖1.14 鄰域大小的變化規律示意圖

img

圖1.15 修改JND因子后的示意圖

LA(Luminance Adaption)是亮度調節因子,表明人眼對比較亮或者比較暗的區域的噪聲不敏感。為了表示亮度信息,首先需要將低頻部分的系數映射到0~255之間,然后求3×3鄰域內的平均亮度值,該值用來表示該點的亮度值。平均亮度值的表達式為

img

然后利用該平均亮度值和式(1.12)求得該點的亮度調節因子,即

img

式(1.17)中的Ft是時域掩蔽因子,它表明人眼對運動快的物體上的噪聲不敏感。Wei實驗數據表明,在空間頻率較高時,時域頻率與空間頻率的常用對數(log10)成一種線性關系,如圖1.16所示。經過擬合后,這些直線的斜率約為?0.03。

img

圖1.16 空間頻率的常用對數與時域頻率的關系

時域掩蔽因子可以表示為

img

其中,ft表示時域頻率,這里主要考慮圖像在視網膜上的移動速度,它由三部分構成:觀看角度、幀率和物體的運動速度,表達式為

img

其中,MV是運動速度,它可以使用映射后的小波低頻系數在3×3的鄰域內求得。fr是幀率,β是觀看角度,β的表達式為

img

其中,Rvd取經驗值為4,Pich是幀的高度。

經過上述一系列參數的調節,確定了JND最后的計算公式為

img

其中,α為調制因子。

1.4.2 顯著性模型

顯著區域是指在圖像中能提取出圖像的重要內容的區域,可以理解為人眼在觀察圖像時,最先注意圖像的區域。實際測試用一般采用眼動儀來進行測試,而實際測試算法一般根據人眼的視覺特性和圖像的特性來進行仿真。因此一般根據圖像在頻域中的特性來提取。根據信息論的觀點,圖像信息能被分解為兩部分:新穎部分和先驗部分。不同的圖像在頻譜對數曲線中有共同的曲線趨勢,頻譜上的冗余部分為圖像的新穎部分,由此來構造圖像的顯著區域。

Ix,y)為一個輸入圖像,Au,v)和Pu,v)分別是經過傅里葉變換后的頻譜和相譜。對數頻譜Lu,v)的公式為

img

Au,v)指示對數頻譜的一般形式,相當于給定的先驗部分。而Au,v)的平均頻譜A1(u,v)可以用局部濾波器來近似Au,v)的形狀,A1(u,v)的計算公式為

img

而這個濾波器hnu,v)定義為

img

綜上,頻譜冗余Ru,v)定義為

img

此時頻譜冗余意味著圖像中的新穎部分,即顯著部分。然后再通過反傅里葉變換得到顯著圖Sx,y),其公式為

img

其中,gx,y)是一個高斯濾波器,目的是通過平滑變換來產生較好的視覺效果。

顯著圖突出了吸引人眼注意的物體,為了檢測顯著圖中的前景物體,我們采用簡單的閾值方法,則前景物體圖Ox,y)被定義為

img

其中,閾值=ESx,y))·3,從而得到圖像的顯著映射圖。

目前,基于注意力機制的模塊已經成為計算機視覺及相關學科中在深度學習網絡的一個核心模塊,能夠為很多視覺和自然語言處理模塊帶來性能的提升。

主站蜘蛛池模板: 揭西县| 荆州市| 无极县| 铜川市| 泰宁县| 萨嘎县| 合水县| 行唐县| 介休市| 张家口市| 闽侯县| 泰和县| 聂荣县| 马公市| 大足县| 大冶市| 平潭县| 轮台县| 出国| 奉节县| 长葛市| 宾阳县| 印江| 荣成市| 富平县| 福清市| 左贡县| 周至县| 扶余县| 文水县| 江北区| 吉木萨尔县| 鄯善县| 南安市| 金昌市| 武邑县| 安义县| 阿尔山市| 丹棱县| 枣庄市| 商城县|