官术网_书友最值得收藏!

第1章 人類視覺系統及其建模

1.1 人類視覺系統概述

計算機視覺的研究對象之一是如何利用二維投影圖像恢復三維景物世界,其基本目的可以歸結為從單幅或多幅二維投影圖像(或視頻序列)計算出觀察點和目標對象之間的空間位置關系及目標對象的物理屬性。例如,包括目標對象與觀察點的距離(即深度信息)、目標對象的運動特性和表面物理特性等。計算機視覺最終的目標就是實現計算機對于客觀世界的理解,從而使得計算機可實現人類視覺系統的某些功能。

人類視覺系統(Human Visual System,HVS)是一個非常復雜的系統,至今還沒有被完全地理解,而且大多數的人類視覺系統視覺特性不是憑直覺獲知的。人類視覺系統是人們理解和認知自然世界的關鍵工具,是揭示大腦秘密的一個突破點。所以,了解人類視覺系統的生理結構,分析信息在大腦中的傳遞過程和形成處理過程是研究計算機視覺的必要前提。深入研究人類視覺系統對視覺刺激的處理機制,合理地利用這種人眼視覺特性,才有可能在更高層次上研究真正意義的計算機視覺算法和系統。

正因為如此,才使得腦科學成為目前研究界的熱點。在大腦接收來自外部世界的大量信息中,絕大部分是通過視覺系統進行加工處理的。視覺信息加工機制是心理學、神經科學、計算機科學等學科研究的重大課題之一。人類的視覺系統是目前已知的功能最完備、機制最復雜的信息加工系統之一,對它的研究無疑對了解人類自身信息加工的能力和機理,對理解大腦中所表達的信息和外部物質世界的關系等問題具有重大的意義。此外,計算機科學的發展突飛猛進,創造具有人類大腦那樣的智能計算機是研究者最大的期望之一。為使這一期望成為現實,首先就要使計算機具有大腦那樣處理大量復雜信息(特別是視覺信息)的能力。這個重大課題雖然經過計算機科學家們幾十年的努力但仍未得到解決,其中最重要的原因之一就是迄今為止我們仍然沒有透徹了解人類視覺系統的工作機制。

不過,隨著腦科學的蓬勃發展,人類對自身視覺系統的研究逐步深入,從初級視覺皮層到高級視覺區域,從視覺感知到高級視知覺機理等,都取得了許多重要的研究成果。

現代腦科學和神經科學的發展使得我們得以更進一步地了解人類視覺系統的構造以及功能。視網膜引出的視覺神經的傳遞路徑及外側膝狀體、視覺皮層的很多工作機理已經逐漸為人們所了解。初級視覺皮層中神經細胞的感受及相應的神經編碼機理也已經被揭示出來。視覺系統提供給我們的信號是經過多級處理的,在處理的過程中,丟失了相當多的信息,剩下的信息在尺度和強度上與視網膜神經細胞感受到的信息有著顯著的不同。

視覺生理學研究已經表明,視覺信息處理過程包括4個方面:光學處理、視網膜處理、外側膝狀體(LGN)處理和視覺皮層處理,其原理圖如圖1.1所示。

光學處理是通過眼睛完成的,眼睛的感光系統如圖1.2所示。它的主要功能相當于“相機”。相應地,鞏膜類似于球形相機的保護殼和暗箱,把眼球整個包圍起來。同時角膜在集中照明上扮演著重要的角色。虹膜被認為是一個孔徑,控制著瞳孔的大小,瞳孔負責調節視網膜上的亮度,同時也影響著系統的焦距。鏡頭就像晶狀體,視網膜相當于膠卷。最后,光線集中在視網膜上,形成一個清晰的物體圖像。現代相機的各個功能部件都可以在人眼中找到相對應的部分,但人眼遠比相機科學、靈活。例如,人眼可以靠直接調整透鏡的曲率來調整焦距,也可以通過眼球外側的6塊肌肉的運動來控制眼球的視線指向,產生雙目視差以形成深度知覺。

img

圖1.1 視覺信息處理原理圖

img

圖1.2 眼睛的感光系統

研究顯示,視網膜主要由三種神經細胞構成,即感光細胞、雙極細胞和神經節細胞,它們負責光、電轉換和信息傳輸。感光細胞主要包括視錐細胞和視桿細胞,視錐細胞主要在強光下辨別強光信息,稱為明視覺;而視桿細胞主要對低照度的景物較敏感,稱為暗視覺。人類的明視覺和暗視覺的特性不同,表現在人眼對明、暗視覺下最敏感的可見光波長不同。雙極細胞的作用是負責聯絡視細胞,即可以使多個視細胞相互聯系。神經節細胞位于最內層,專門負責傳導。這種細胞與細胞之間的聯系,以及視覺信號通過眼睛最后在大腦中形成影像并理解影像內容的處理流程就成為計算機視覺的一個重要參考標準。神經網絡,包括現在流行的深度學習技術,都是對這種流程進行模擬的嘗試,并在近幾年中,取得了很好的效果,如深度學習在圖像分類、目標檢測與跟蹤、行為分析與理解等方面都獲得了空前的成功。

通過視網膜,光信號被編碼為電壓脈沖,再以調頻形式傳遞給LGN。LGN作為信號從視網膜到視覺皮層的傳輸站,同時對控制信息數量起著重要作用。最后,視覺皮層實現了對物體的識別、感知與理解的過程。

總體來說,外界物體在視網膜成像時,實際過程是:光線這個刺激因素被視網膜的感光細胞(視桿細胞和視錐細胞)轉變為電信號,后者經視網膜內雙極細胞傳到神經節細胞形成神經沖動,即視覺信息,視覺信息再經視神經傳向大腦。雙極細胞可以看成視覺傳導通路的第1級神經元,神經節細胞是第2級神經元,很多神經節細胞發出的神經纖維可以組成較粗大的視神經。LGN是視覺信息的中轉站,視輻射可由LGN中含有的第3級神經元組成,最后將這些神經纖維投射到視覺皮層中。視覺傳導神經通路如圖1.3所示。

img

圖1.3 視覺傳導神經通路

視覺皮層中17區被稱為第一視區(V1)或紋狀皮層。它接受外側膝狀體的直接輸入,因此也被稱為初級視覺皮層。對視覺皮層的功能研究大多數是在這一級皮層進行的。這是大腦皮層處理視覺信息的起點,從初級視覺皮層開始,視覺信息通過多個通道把視覺信息傳入更高級的皮層進行處理。V1區主要包括兩類神經細胞:具有朝向選擇性的簡單細胞和對位置不敏感的復雜細胞。作為整個視覺皮層的底層部分,V1區的神經細胞的功能是,將底層視路的信息轉換成初級視覺信息表示,并且直接向高級視覺皮層輸送視覺信息。現代計算機視覺和視覺信息的表示都是基于人類這種視覺特性而進行構建的,兩者都是對人類視覺系統的模擬。如在計算機視覺中,采用RGB三基色來表示自然界的各種顏色,實際上,其基本原理就來于感光細胞中的三類細胞:紅敏細胞、綠敏細胞和藍敏細胞。并且綠敏細胞的數量是最多的,因此在任何顏色空間的轉換中,亮度信號中綠色分量也就是G分量對應的系數是最大的。

基于對人類視覺系統生理上的不斷理解和深入研究,所獲得的新的認知原理都可能應用在計算機視覺的各個方面,從而使得新型計算機視覺技術更加適應人類的認知習慣,更加符合人類的感知特性。例如,在3D視覺中,3D電影和電視近年來不斷刷新人類的認知,但大家普遍感覺戴3D眼鏡來觀看3D電影并不是一種很好的體驗,尤其是長時間觀看3D電影,可能會對人類的視覺造成損傷。這表明目前的3D電影雖然也是通過模擬人類視覺系統來進行研究并設計的產品,但可能對于人類與此有關的一些視覺特性并沒有研究透徹。因此促使研究者更加深入地研究這個問題,目的是能設計出更符合人類視覺特性的3D電影和電視。可以預見,隨著技術的進步,計算機視覺系統的設計將會越來越更真實地模擬人類的視覺功能,并在實際應用中更加體現出超越人類的性能。

主站蜘蛛池模板: 平远县| 德令哈市| 常山县| 大渡口区| 绥化市| 潮州市| 扶风县| 凌源市| 久治县| 观塘区| 宽甸| 容城县| 南康市| 灵璧县| 阳原县| 阜康市| 巴林左旗| 清水河县| 绍兴市| 高邑县| 桂林市| 和龙市| 木里| 桃园市| 阳信县| 航空| 京山县| 萍乡市| 麻阳| 龙泉市| 托克逊县| 育儿| 周口市| 浮山县| 白水县| 扎兰屯市| 五大连池市| 绥滨县| 岑溪市| 祥云县| 探索|