官术网_书友最值得收藏!

  • 計算機視覺
  • 劉紹輝
  • 3432字
  • 2021-01-22 18:56:23

1.2 人眼基本視覺特性

在人類對人腦的研究過程中發現了人眼具有很多視覺特性,而注意選擇機制是其中尤為重要的特性,近年來深度學習的發展遇到一定的瓶頸,而其中的注意選擇機制則異軍突起,為深度學習打開了一個廣闊的空間。人的視覺系統以分層的多通道信息處理為主要特征,它以在時間域和空間域逐級整合的方式實現視覺信息在視覺通路中的傳播,完成對景物的概念化抽象。然而,在處理過程中,人腦對外界信息并不會一視同仁,而是表現出選擇特性。這有兩方面的原因:第一,可用資源的限制,由于腦的容積是有限的,遠低于感覺器官所提供的信息總量,這在視覺系統尤為重要(據估計,人的視網膜所提供的信息量大約是在每秒108~109位,而大腦皮層細胞的總數僅為108~109個),這是通常所說的信息處理中的瓶頸效應。因此,要實時地處理全部信息是不可能的,視覺系統采取的策略是有所選擇地對一部分信息進行處理。第二,由于外界環境信息并不全部都重要,因此大腦只需對部分重要的信息做出響應并進行處理即可。

視覺皮層神經元對視覺刺激的各種靜態和動態特征都具有高度選擇性,包括方位/方向選擇性、空間頻率選擇性、速度選擇性、雙眼視差選擇性、顏色選擇性。

方位/方向選擇性:視覺皮層細胞只有當刺激線條或邊緣處在適宜的方位角并按一定的方向移動時,才表現出最大興奮(最佳方位或最佳方向)。以細胞的放電頻率相對于刺激方位和運動方向做成直方圖,可以顯示該細胞的方位和方向調諧特性。

空間頻率選擇性:正弦波調制的光柵是視覺實驗中經常使用的刺激圖形。用這種刺激圖形的主要優點是便于對視覺反應的時空特性進行定量的數學分析。每個視覺皮層細胞都有一定的空間頻率調諧。在同一皮層區內,不同細胞也有不同的空間頻率選擇性。

速度選擇性:視覺皮層細胞對移動圖形的反應比對靜止的閃爍圖形要強得多。每個皮層細胞不僅對運動的方向有選擇性,而且要求一定的運動速度。只有當刺激圖形在適宜的方向上以一定速度移動時,細胞反應才達到最大,這個速度稱為該細胞的最佳速度。當移動速度高于或低于最佳速度時,反應都會減小。

雙眼視差選擇性:與外側膝狀體細胞不同,大部分視覺皮層細胞接受雙眼輸入。因此,每個細胞在左、右視網膜上都有一個感受野,這一對感受野在視網膜上的位置差(相對于注視點)稱為“視差”。若左、右感受野與注視點的距離差為零,則表示該點正好在注視平面上;若兩個感受野都向額側偏離,則表示該細胞的調諧距離(最佳距離)比注視點遠;若兩個感受野向鼻側偏離,則意味著該細胞的調諧距離比注視點近。

顏色選擇性:同視網膜和外側膝狀體神經元一樣,皮層細胞也具有顏色選擇性。與皮層下的單頡頏式感受野不同,視覺皮層細胞的顏色感受野具有雙頡頏式結構。例如,對于R-G(紅—綠)型感受野來說,其顏色結構可能有兩種形式。感受野中心可能被綠敏視錐細胞的輸入興奮,同時被紅敏視錐細胞輸入抑制,或者相反。外周對顏色的反應性質正好與中心相反。因此,雙頡頏式感受野通過中心的顏色頡頏能分辨紅色和綠色,通過中心與外周之間的相互作用能使紅—綠對比的邊緣得到增強。對于B-Y(藍—黃)型感受野,情況也一樣。

1.2.1 色彩空間

色彩是指人眼能根據光的不同頻率而產生的不同感受。人眼能夠識別色彩的原因是因為有能夠吸收光的不同波長范圍的三種視錐細胞,而這三種視錐細胞能辨別紅色、綠色和藍色這三種顏色。我們知道把紅色、綠色和藍色搭配在一起可以生成不同色彩的顏色,這就是一個色彩空間,如RGB。另外,色彩空間可以有多種,例如,使用色相、飽和度與明度來呈現一個色彩空間,這種方法被命名為HSI色彩空間。不同的色彩空間對應不同的應用,因此我們可以根據需要選擇使用不同的色彩空間,它們之間也可以相互轉化。一般情況下,色彩空間覆蓋了自然界中絕大部分的顏色空間,這種空間一般稱為色域。而根據人類視覺特性設計出來的色彩空間(如RGB空間)是,假定自然界中的顏色都可以被RGB三種顏色表達出來。而實際情況并不是這樣,因為色域不是正規的三角形區域,所以由RGB所形成的三角形的色彩空間只是包括了自然界色域空間中的絕大部分區域。不同的RGB顏色空間對應了自然界色域空間中的不同區域。這樣,采用不同顏色空間表示的圖像,在不同的顯示器上可能會呈現出不一樣的效果,例如,蘋果手機上的圖像放到小米手機上觀察,會發現其效果與在蘋果手機上的效果不一樣。具體可參見3.1節的內容。

1.2.2 多通道特性

視覺生理學和心理學實驗顯示,視覺皮層中的神經元被認為類似一個有方向的帶通濾波器,能夠在不同頻率和方向上進行分解。視覺系統中包含了能夠處理空間頻率的單元,也稱通道。例如,人的黑白視覺的幾個倍頻的通道存在于30°~60°之間;相似的關于人眼的彩色視覺通道存在于60°~130°之間。這些通道相當于把原始信號劃分成子帶后再進行處理。因此,在常見的計算機視覺處理中,采用數學變換來處理圖像,形成不同頻率成分的系數或子帶,并進行后續的處理。典型的變換如傅里葉變換,離散余弦變換和離散小波變換,都可以對輸入的圖像進行頻譜的劃分處理,從而模擬視覺系統中的這種多通道特性,對不同通道的信號進行不同的處理,如數據壓縮就是對高頻分量進行粗糙的量化處理。

1.2.3 亮度自適應

人的視覺系統對光的適應范圍是很寬的,大致范圍約為10-2~106cd/m2。在背景照明不變的情況下,人的視覺的感光范圍很窄,它可以根據光的強度來適當調節。當人眼適應某個環境亮度后,人的視覺會產生一個變動,隨之調節到一個較小的范圍,這就是亮度適應現象。

當人的視覺在適應背景照明不變的情況下,人眼能感知到對黑白色彩的范圍縮小了。因此當圖像重現時,即使圖像重現的亮度與原本的實際景物的亮度不同,也能夠保持重現圖像和原本的實際圖像之間亮度的相對比值,人們就能感覺到同樣的真實感覺。

在連續背景下對噪聲監測閾值的衡量表明,人類視覺和聽覺都具有一定的掩蔽效應,也就是其察覺的亮度或響度對其周圍的亮度或響度有掩蔽的效果。在人類視覺模型中,這種閾值衡量是一個非線性函數并依賴于局部的圖像特征。一般而言,背景越亮或者越暗,人眼對該區域的敏感程度就越低,這就是亮度掩蔽特性。

1.2.4 對比度敏感度函數

對比度是一種度量亮度相對變化的量,大致可認為,對比度正比于激勵信號的相對量度幅度。通常激勵信號的顏色、時間頻率、空間頻率都與人眼對比度的敏感度有關,而對比度敏感函數(CSF)是定量描述這種關系的。當時域頻率為零時,人類視覺系統的空間對比度敏感度函數被定義為調制轉移函數。調制轉移函數的研究指出,人類視覺系統對靜止圖像的空間頻率響應表現為帶通特性。因此,空間對比度敏感度可以使用帶通濾波器來模擬。歸一化后的對比度敏感度函數如圖1.4所示。人眼的對比度敏感度不僅存在空間中,而且存在時域上,因此也可以通過簡單的時域濾波來實現。

img

圖1.4 歸一化后的對比度敏感度函數

Kelly通過實驗測量了不同頻率下的對比度敏感度的數據。公式為

img

其中,fsft分別為激勵的空間頻率和時間頻率。Kelly又發現,CSF可以用兩個時空分離的部分線性組合近似逼近,這樣可以降低模型的計算復雜度。很多真實模型都是用非線性方式表達的,但絕大部分算法都采用這種線性近似的方式對其進行逼近,或者采用二次逼近。其本質原理就是將原來的非線性函數進行泰勒展開,根據需要取其一階、二階直到給定階數來進行近似。由于這種近似具有很好的收斂性質,因此該方法是解決實際工程問題的通用方法。

1.2.5 視覺掩蔽效應

在對CSF的研究過程中,為了使問題簡化,假設視覺激勵信號是一個常量或單一的頻率信號。在觀看圖像時,很多激勵信號會對人眼產生作用,此時人眼對一個激勵的響應不僅受激勵信號本身影響,而且同一時刻也會與其他激勵信號的影響有關。在一個視覺激勵存在的情況下,人類視覺系統會在其他激勵影響下改變當前激勵的可見閾值,這種現象稱為視覺掩蔽效應。

常見的視覺掩蔽效應是19世紀的實驗心理學家Ernst Weber在實驗過程中發現的,人們能覺察到的背景強度的增量閾值(又稱為剛好可區分的差異)與背景強度的比值是一個常量,這個關系就是韋伯定律。公式為

img

其中,ΔI表示增量閾值;I表示刺激的原始強度;k表示等式左側的比例關系為常量,不會因為I的大小而變化。比值ΔI/I就是韋伯比(Weber Fraction),又稱為費克納比(Fechner Fraction)。

韋伯定律指出剛好可區分的差異(ΔI)與原刺激值的大小的比例是常量。例如,如果你在一個嘈雜的環境中,那么你必須放大音量才能讓別人聽見你說話,但是在一個非常安靜的環境中你只需要耳語就足夠了。類似地,當你測量不斷變化的背景剛好可區分的增量閾值IΔ時,該閾值ΔI會與原始強度I的大小成正比。

主站蜘蛛池模板: 邢台市| 广灵县| 佛山市| 正安县| 抚顺市| 曲松县| 天峻县| 阜新市| 桐柏县| 雷山县| 永仁县| 英吉沙县| 龙井市| 玉溪市| 望谟县| 会宁县| 盖州市| 玉树县| 禄丰县| 班玛县| 金川县| 万载县| 巴彦淖尔市| 武夷山市| 日照市| 桐城市| 阳原县| 射洪县| 长岭县| 西平县| 普洱| 新化县| 乳山市| 驻马店市| 汝阳县| 衡水市| 怀集县| 栾城县| 新沂市| 彭山县| 奎屯市|