- 計算機視覺
- 劉紹輝
- 2838字
- 2021-01-22 18:56:23
1.3 立體視覺的形成過程
隨著技術(shù)的發(fā)展,立體圖像和視頻的應(yīng)用也越來越廣泛,例如,近年來的3D電影、電視技術(shù)逐漸普及,這些應(yīng)用促進了立體視覺的研究。立體視覺的產(chǎn)生大致分為三個過程。首先,給定構(gòu)成立體圖像的圖像對(具有標準視差):左圖像和右圖像,在此階段,雙眼要同時觀察這兩幅圖像;其次,視覺系統(tǒng)會通過觀察到的這兩幅圖像,經(jīng)過一系列的復(fù)雜處理融合成一幅圖像;最后,視覺系統(tǒng)會結(jié)合心理因素將平面圖像的信息轉(zhuǎn)化成立體信息,最終產(chǎn)生立體視覺。到目前為止,經(jīng)過研究者不斷探索,視覺生理學(xué)和視覺心理學(xué)已經(jīng)獲得了很多的研究發(fā)現(xiàn)。這也是今年3D電影和電視技術(shù)逐漸得到推廣的原因。當然,由于對生理學(xué)和人類視覺心理學(xué)的研究仍然在進行中,因此,目前的3D電影和電視技術(shù)可能還無法與真正的人類視覺系統(tǒng)相媲美,仍有很大的改進空間。
1.3.1 立體視覺系統(tǒng)的生理特性
生理立體視覺是由人眼的晶狀體調(diào)節(jié)、運動視差、雙眼會聚、雙眼視差和融合圖像等因素構(gòu)成的立體視覺。人眼的晶狀體調(diào)節(jié)是指外界圖像在視網(wǎng)膜上成像的過程,它是根據(jù)睫狀體的收縮和放松完成這個過程的。晶狀體有自適應(yīng)調(diào)節(jié)焦距的功能,根據(jù)不同的遠近景,晶狀體會通過改變形狀來使進出的光線聚焦在視網(wǎng)膜上。當觀看近景時,晶狀體的弧度變彎曲,此時睫狀肌的狀態(tài)是收縮的;當觀看遠景時,晶狀體的彎曲程度降低,此時睫狀肌處于擴張狀態(tài),且屈光度數(shù)隨之減小,以便使來自遠處的光線恰好聚焦在視網(wǎng)膜上。
在深度認識的過程中,一方面是來自日常生活觀察和經(jīng)驗的累積。例如,人們平時對看到的物體的大小和形狀的認知,對紋理和結(jié)構(gòu)的認知,對光線產(chǎn)生的陰影和遮擋的認知,對物體運動情況的認知,等等。通過了解人們?nèi)粘S^察的認知和經(jīng)驗,這些視覺線索被人們認為是距離信息或者深度信息,從而營造了一種深度感。另一方面,人的雙眼是分開的,雙眼瞳孔間的水平距離約為6.5cm,如圖1.5所示。

圖1.5 雙目視差
當我們集中注意一個物體時,雙眼就會將視線同時聚于該物體,此時物體就會在兩眼中視網(wǎng)膜上的相應(yīng)位置成像。但由于雙眼間的差異,兩個眼睛中接收的圖像會有略微的差異,這種差異就稱為視差。同樣一個物體,當我們只用左眼觀看和只用右眼觀看時,會發(fā)現(xiàn)物體轉(zhuǎn)動一定角度并向旁邊移動了一些。我們從雙眼中觀察到圖像的差異稱為雙目視差,根據(jù)這種差異就會產(chǎn)生立體的深度感。
當觀察目標物體時,眼球內(nèi)轉(zhuǎn)使雙眼視軸交匯于注視目標,這個過程稱為會聚,如圖1.6所示。外界信號會通過大腦傳遞給眼肌,而眼肌會通過控制眼球會聚到目標點。適應(yīng)性調(diào)節(jié)和雙眼會聚的共同作用才能完成一個注視的動作,大腦會通過認知來融合稍有差異的左右眼中的圖像使之具有立體感。融合則是指把兩個視網(wǎng)膜的對應(yīng)點上的物像整合成完整的符合人的印象的功能。

圖1.6 會聚過程
雙目視差是使人眼產(chǎn)生立體視覺的因素,它分為相對視差和絕對視差。當在不同位置觀看物體時,參考左右兩眼的視網(wǎng)膜中央凹,絕對視差是指左右兩眼上的兩個投影點形成的角度。而它們的絕對視差之差就是兩點之間的相對視差。如圖1.7所示,相對視差是α?β,絕對視差是α、β。

圖1.7 相對視差和不同觀察目標下的絕對視差
由于當分別用左右眼去觀察左右兩張圖時能融合成一個完整的三維圖像,因此這說明視差攜帶了深度信息。在利用立體圖對的方法來研究深度視覺問題時,Bela Julesz在美國貝爾電話實驗室進行了實驗。他開始時利用計算機產(chǎn)生兩張相同的隨機點的圖,并將其中一張中的一點圖像的隨機點水平位移一個距離,這就構(gòu)造了一對具有視差的圖對。然后用雙眼去觀看,就會產(chǎn)生立體的感覺,這說明了雙眼視差是立體信息。
在計算上,既可以從多幅圖像中通過計算來獲取深度信息,又可以通過單幅圖像采用深度學(xué)習(xí)的方式來學(xué)習(xí)深度信息。現(xiàn)在市場上已經(jīng)存在很多具有獲取深度信息的采集設(shè)備。其基本原理既有采用雙目視覺原理的,又有采用飛行時間(TOF)的,即通過發(fā)射信息到被測物體表面再反射回來的時間來估計其距離,典型的發(fā)射信號包括紅外信號、超聲波和激光等。如微軟的Kinect設(shè)備通過紅外信號來獲取深度信息。
但絕大部分設(shè)備獲取的深度信息都比較粗糙,一般其分辨率遠小于可見光成像的分辨率。有時獲取的深度圖存在很多空洞,如深度圖由于吸收了發(fā)射信號,因此沒有反射信號,這時這個位置的深度信息就為空。這時候就需要采用計算技術(shù)來對深度圖進行修復(fù)和增強其分辨率,傳統(tǒng)用于可見光圖像的修復(fù)和增強技術(shù)均可用于深度圖的修復(fù)。
1.3.2 立體視覺系統(tǒng)的心理特性
視覺經(jīng)驗和視覺記憶是心理立體視覺的體現(xiàn)。當人們觀察一張彩色照片時,可以根據(jù)照片的內(nèi)容來判斷物體及人物間的距離關(guān)系。這種在人類長期面對自然景物觀看時產(chǎn)生的記憶和經(jīng)驗,使得觀察者能夠從一幅圖像中提取出物體間的相對深度,這個判別通常是十分準確的。心理立體視覺可以由陰影、遮擋、幾何透視、知識與經(jīng)驗等產(chǎn)生。
陰影是光的直線傳播導(dǎo)致的,物體離光源越近的地方就越亮,反之則越暗,這種亮度的分布是一種心理深度的暗示。當物體投射出陰影且在運動時,實際效果看起來好像是物體離開了頁面,并在頁面上顯示出該對象的陰影。陰影部分的工作原理是建立一個偏移量,該偏移量是物體和它投射到的表面的相對距離的線索,從而使人產(chǎn)生深度暗示。
遮擋是一個遮擋物掩蔽了本來物體的一部分,使人們看起來比本來物體更遠些。這說明遮擋可以提供深度暗示。
幾何透視是數(shù)學(xué)原理、科學(xué)和藝術(shù)的結(jié)合。幾何透視運用到繪畫中,能使人產(chǎn)生更清晰、更透徹的立體感。這主要利用物體具有近小遠大的透視現(xiàn)象,這也是最常見的心理立體暗示。
當我們觀察物體時,會利用我們對世界的認知和經(jīng)驗來判定物體間的相對深度。例如,當我們看到圖片上的大樓和人一樣大時,我們會認為人正在遠離大樓且越走越遠,因為我們知道大樓的高度比人要高得多。又如當人站在磚塊路面上朝著遠處眺望時,由于視網(wǎng)膜上的遠處部分的磚塊影像的數(shù)量很多,因此遠處的磚塊會顯得越來越小,這便產(chǎn)生了深度知覺。
這種人類視覺的特性使得采用機器學(xué)習(xí)的方式來學(xué)習(xí)這種經(jīng)驗成為可能。在標記了大量數(shù)據(jù)的情況下,機器學(xué)習(xí)算法可能具有學(xué)習(xí)這種先驗的能力。
1.3.3 立體視覺生理特性與心理特性的關(guān)系
圖像在人眼中呈現(xiàn)的立體形態(tài),看似很簡單,其實蘊藏著復(fù)雜的原理,景物在視網(wǎng)膜上的成像是二維的,但是人腦能整合出原來不存在的三維信息。這就充分說明二維信息中隱含的深度信息被解讀出來了,通常人們可以通過生理和心理的深度線索來感知深度感或立體感。
當人們觀看物體時,都是通過觀看者的眼睛來成像到視網(wǎng)膜上的。在兩眼的視網(wǎng)膜上形成的像是有差異的,這就構(gòu)成了立體的感覺,這就是立體視覺的生理特性。但是當不考慮兩眼間產(chǎn)生的差異時,人們會根據(jù)觀看到的物體深度關(guān)系產(chǎn)生立體的感覺,這就是立體視覺的心理特性。因此立體視覺的生理特性和心理特性產(chǎn)生的效果是一樣的。
綜合利用人類的這種生理特性和心理特性,可以在計算模型中進行模擬,從而使機器具有一定的人類能力,這是計算機視覺研究中的重要研究內(nèi)容。現(xiàn)代深度學(xué)習(xí)正在這方面進行嘗試,并取得了較好的效果。目前深度學(xué)習(xí)既可以從單幅圖像又可以從視頻中獲取深度圖信息。
- 數(shù)據(jù)可視化:從小白到數(shù)據(jù)工程師的成長之路
- DB29forLinux,UNIX,Windows數(shù)據(jù)庫管理認證指南
- 從0到1:數(shù)據(jù)分析師養(yǎng)成寶典
- 云計算與大數(shù)據(jù)應(yīng)用
- ZeroMQ
- SQL應(yīng)用及誤區(qū)分析
- PostgreSQL指南:內(nèi)幕探索
- 辦公應(yīng)用與計算思維案例教程
- Python數(shù)據(jù)分析與數(shù)據(jù)化運營
- Hadoop大數(shù)據(jù)開發(fā)案例教程與項目實戰(zhàn)(在線實驗+在線自測)
- 數(shù)據(jù)庫應(yīng)用系統(tǒng)開發(fā)實例
- MySQL技術(shù)內(nèi)幕:SQL編程
- 大數(shù)據(jù)技術(shù)原理與應(yīng)用:概念、存儲、處理、分析與應(yīng)用
- The Natural Language Processing Workshop
- MySQL技術(shù)內(nèi)幕:InnoDB存儲引擎