- 智能駕駛:視覺(jué)感知后處理
- 韋松
- 2774字
- 2025-01-22 14:39:20
1.2 視覺(jué)感知在智能駕駛中的應(yīng)用
1.2.1 計(jì)算機(jī)視覺(jué)概述
視覺(jué)是人類(lèi)觀察和認(rèn)知外部世界的重要手段。人類(lèi)獲得的外部信息中有80%是通過(guò)視覺(jué)器官獲取的。計(jì)算機(jī)視覺(jué)是通過(guò)圖像或者視頻數(shù)據(jù)來(lái)感知、識(shí)別和理解客觀世界,從而達(dá)到模擬人眼的目的。它主要以數(shù)碼攝像機(jī)拍攝的數(shù)字圖像或數(shù)字視頻為原始數(shù)據(jù),從中提取出在圖像或視頻中能觀察到的事物。
David Marr在其著作Vision中提出了計(jì)算機(jī)視覺(jué)計(jì)算理論框架(見(jiàn)圖1-2)。該理論受人工智能和神經(jīng)科學(xué)兩方面的影響,是計(jì)算神經(jīng)科學(xué)的前驅(qū),也是對(duì)視覺(jué)計(jì)算理論研究影響最深刻的理論之一。

圖1-2 計(jì)算機(jī)視覺(jué)計(jì)算理論框架
Marr指出,視覺(jué)實(shí)際上是一個(gè)層次化、模塊化的信息處理過(guò)程,通過(guò)該處理過(guò)程最終建立一個(gè)外部世界的描述。視覺(jué)信息處理大致可以分為3個(gè)步驟:前期視覺(jué)信息處理、中期視覺(jué)信息處理、后期視覺(jué)信息處理。前期視覺(jué)信息處理是將原始圖像轉(zhuǎn)換為包括邊緣、線段、角點(diǎn)、紋理等特征的基本要素圖;中期視覺(jué)信息處理是完成2.5維描述,即對(duì)物體表面、深度及輪廓進(jìn)行描述,是觀察者坐標(biāo)系下的部分三維描述;后期視覺(jué)信息處理是完成完整的三維描述,即對(duì)物體實(shí)現(xiàn)形狀與空間位置的三維模型描述。視覺(jué)信息處理研究包括計(jì)算理論、算法描述和硬件實(shí)現(xiàn)3個(gè)方面,既要從計(jì)算理論出發(fā)研究計(jì)算策略、約束條件、基元等,又要設(shè)計(jì)三維重建算法,并用硬件實(shí)現(xiàn)。
1.2.2 計(jì)算機(jī)視覺(jué)原理
計(jì)算機(jī)視覺(jué)系統(tǒng)以圖像模型的形式構(gòu)建或復(fù)原現(xiàn)實(shí)世界,認(rèn)知現(xiàn)實(shí)世界。計(jì)算機(jī)以及信號(hào)處理理論出現(xiàn)后,人們開(kāi)始嘗試使用攝像機(jī)等圖像捕捉設(shè)備代替人眼獲取圖像,然后使用計(jì)算機(jī)或嵌入式處理器等代替人腦分析、認(rèn)知和理解數(shù)據(jù),由此誕生了計(jì)算機(jī)視覺(jué)學(xué)科。計(jì)算機(jī)視覺(jué)學(xué)科要實(shí)現(xiàn)的最終目標(biāo)是使計(jì)算機(jī)和機(jī)器能夠像人類(lèi)那樣觀察和理解世界,目前應(yīng)用中的一般目標(biāo)只是讓計(jì)算機(jī)和機(jī)器能夠達(dá)到一定程度的智能要求。
計(jì)算機(jī)視覺(jué)的研究始于20世紀(jì)50年代,最初是通過(guò)統(tǒng)計(jì)模式識(shí)別方法識(shí)別光學(xué)字符。1959年,Russell等人成功研制出第一臺(tái)數(shù)字圖像掃描儀,從此揭開(kāi)了數(shù)字圖像處理的序幕。20世紀(jì)60年代初,數(shù)字圖像處理學(xué)科形成,一些研究人員開(kāi)始通過(guò)計(jì)算機(jī)編程提取簡(jiǎn)單形體的三維結(jié)構(gòu),從而得到物體形狀和空間位置關(guān)系。同時(shí),更多的研究人員開(kāi)始研究圖像特征提取,分析圖像灰度、紋理、運(yùn)動(dòng)等,形成了很多方面的研究標(biāo)準(zhǔn)和統(tǒng)一規(guī)則。
20世紀(jì)80年代前后,MIT開(kāi)設(shè)了計(jì)算機(jī)視覺(jué)理論的課程,標(biāo)志著計(jì)算機(jī)視覺(jué)理論有了明確的體系。這一事件對(duì)于計(jì)算機(jī)視覺(jué)的發(fā)展起到了積極的推動(dòng)作用。此后,越來(lái)越多的工程學(xué)者開(kāi)始投身于計(jì)算機(jī)視覺(jué)的研究和應(yīng)用領(lǐng)域。
到2006年,Hinton等人提出了深度神經(jīng)網(wǎng)絡(luò)(DNN)的概念,為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究提供了新的工具和方法。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和應(yīng)用,計(jì)算機(jī)視覺(jué)領(lǐng)域的研究也取得了重大突破。
1.2.3 計(jì)算機(jī)視覺(jué)在智能駕駛中的應(yīng)用
在智能駕駛領(lǐng)域,智能駕駛系統(tǒng)可以通過(guò)圖像識(shí)別和目標(biāo)檢測(cè)等技術(shù),對(duì)車(chē)輛周?chē)沫h(huán)境進(jìn)行感知和分析,從而為駕駛員提供更加準(zhǔn)確和及時(shí)的駕駛輔助信息。例如,智能駕駛系統(tǒng)可以通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)識(shí)別車(chē)道線、交通信號(hào)燈、行人、其他車(chē)輛的位置和速度等信息,并根據(jù)這些信息進(jìn)行自動(dòng)駕駛或輔助駕駛員進(jìn)行更加安全、高效的駕駛。
視覺(jué)感知系統(tǒng)主要以攝像頭作為傳感器輸入,經(jīng)過(guò)一系列的計(jì)算和處理,實(shí)現(xiàn)對(duì)自車(chē)周?chē)h(huán)境的精確感知。它的目的在于為融合模塊提供準(zhǔn)確、豐富的信息,包括被檢測(cè)物體的類(lèi)別、距離、速度、朝向以及抽象層面的語(yǔ)義信息。因此,視覺(jué)感知系統(tǒng)的道路交通感知功能主要包括以下3個(gè)方面。
1)檢測(cè)和識(shí)別物體:視覺(jué)感知系統(tǒng)能夠檢測(cè)和識(shí)別道路上的各種物體,包括車(chē)輛、行人、道路標(biāo)志、交通信號(hào)燈等,并為駕駛員提供準(zhǔn)確的距離和速度信息。
2)判斷交通情況:視覺(jué)感知系統(tǒng)能夠根據(jù)交通場(chǎng)景中的各種因素,如車(chē)輛行駛軌跡、交通信號(hào)燈狀態(tài)、道路標(biāo)志等,判斷交通情況,提供實(shí)時(shí)的交通信息。
3)提取語(yǔ)義信息:視覺(jué)感知系統(tǒng)能夠根據(jù)檢測(cè)到的物體和場(chǎng)景信息,提取出抽象層面的語(yǔ)義信息(如車(chē)輛行駛意圖、行人行為意圖等),為決策模塊提供參考依據(jù)。
這3個(gè)功能可以通過(guò)一個(gè)主干深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。這樣不僅可以提高檢測(cè)速度、減少計(jì)算參數(shù),還可以通過(guò)增加主干深度神經(jīng)網(wǎng)絡(luò)層數(shù)的方式提高檢測(cè)和分割精度。如圖1-3所示,我們可以將視覺(jué)感知任務(wù)分解成目標(biāo)檢測(cè)、圖像分割、目標(biāo)測(cè)量、圖像分類(lèi)等。

圖1-3 視覺(jué)感知任務(wù)分解圖
1.2.4 視覺(jué)后處理與智能駕駛
在“2D感知+以規(guī)則為主”的規(guī)劃控制模塊框架中,視覺(jué)后處理的重要性不言而喻。它是將圖像坐標(biāo)系下的環(huán)境信息轉(zhuǎn)換為世界坐標(biāo)系下的信息,讓車(chē)輛更好地理解道路狀況、交通參與者以及潛在的危險(xiǎn)。通過(guò)這種處理,智能駕駛車(chē)輛可以更準(zhǔn)確地掌握道路上的情況,從而更好地規(guī)劃行駛路徑和避讓障礙物,提升行車(chē)安全性。同時(shí),視覺(jué)后處理的結(jié)果還可以為后續(xù)的決策規(guī)劃提供關(guān)鍵依據(jù),幫助車(chē)輛在復(fù)雜多變的路況中做出正確的決策。
在進(jìn)行視覺(jué)后處理的過(guò)程中,車(chē)輛需要完成一系列復(fù)雜的計(jì)算和推理。首先,對(duì)采集到的圖像數(shù)據(jù)執(zhí)行降噪、增強(qiáng)等預(yù)處理操作,以提高圖像的質(zhì)量和清晰度。然后,通過(guò)坐標(biāo)轉(zhuǎn)換將圖像坐標(biāo)系下的環(huán)境信息映射到世界坐標(biāo)系下,實(shí)現(xiàn)車(chē)輛對(duì)環(huán)境的感知和理解。這個(gè)過(guò)程需要用到復(fù)雜的邏輯運(yùn)算和各坐標(biāo)系之間的旋轉(zhuǎn)平移運(yùn)算,以確保坐標(biāo)轉(zhuǎn)換的準(zhǔn)確性和實(shí)時(shí)性。
在完成坐標(biāo)轉(zhuǎn)換后,智能駕駛車(chē)輛就可以在世界坐標(biāo)系下實(shí)施一系列策略。如通過(guò)測(cè)距技術(shù),車(chē)輛可以精確判斷前方障礙物與自身的距離,從而自動(dòng)調(diào)整行駛速度或進(jìn)行避讓。同時(shí),跟蹤擬合技術(shù)大大增強(qiáng)了車(chē)輛對(duì)周?chē)h(huán)境的感知能力。無(wú)論行人、車(chē)輛,還是交通標(biāo)志,都能被有效地識(shí)別、追蹤和預(yù)測(cè),這為車(chē)輛的決策規(guī)劃提供了有力支持。這些技術(shù)的運(yùn)用不僅可以提高車(chē)輛的行駛安全性,還可以?xún)?yōu)化行駛路徑和速度,提高道路通行效率。
但是,視覺(jué)后處理也存在一些挑戰(zhàn)和限制。在某些惡劣天氣(如霧霾、雨雪等)下,圖像的清晰度和對(duì)比度可能會(huì)大幅下降,給視覺(jué)后處理帶來(lái)巨大挑戰(zhàn)。在這種情況下,車(chē)輛的感知能力和決策能力會(huì)受到嚴(yán)重影響,甚至可能導(dǎo)致安全事故。此外,對(duì)于高速行駛的車(chē)輛來(lái)說(shuō),短時(shí)間內(nèi)獲取大量圖像信息并迅速處理、決策是一項(xiàng)極具難度的任務(wù)。這也促使研究者不斷探索更高效、更穩(wěn)健的視覺(jué)后處理方法,以進(jìn)一步提升自動(dòng)駕駛的安全性和可靠性;同時(shí),還需要通過(guò)不斷的研究和實(shí)踐來(lái)驗(yàn)證、完善這些技術(shù)。
1.2.5 視覺(jué)感知在智能駕駛中的發(fā)展趨勢(shì)
當(dāng)前,“BEV+Transformer”框架已經(jīng)逐漸投入實(shí)際應(yīng)用。Transformer模型的特性在一定程度上解決了傳統(tǒng)規(guī)則視覺(jué)后處理中的一些缺陷問(wèn)題。通過(guò)使用Transformer模型提取的特征向量,可以在統(tǒng)一的3D坐標(biāo)系空間實(shí)現(xiàn)特征融合,從而提升智能駕駛的感知能力。這種方式有助于減少對(duì)高精地圖的依賴(lài),優(yōu)化極端場(chǎng)景(Corner Case)的處理。
此外,Transformer大模型結(jié)合時(shí)序信息進(jìn)行動(dòng)態(tài)識(shí)別,在智能駕駛過(guò)程中通過(guò)對(duì)車(chē)輛周?chē)h(huán)境的時(shí)間序列分析,可以更好地理解和預(yù)測(cè)車(chē)輛的行為和狀態(tài)。這種基于特征融合的方式也有助于提升智能駕駛的感知能力,提高行車(chē)的安全性和舒適性。
- 低空空域管理與通用航空空域規(guī)劃
- 進(jìn)口轎車(chē)標(biāo)識(shí)和儀表警示信息速查手冊(cè)
- 汽車(chē)編程設(shè)置一冊(cè)通:電腦編程-防盜匹配-保養(yǎng)歸零-系統(tǒng)復(fù)位(第二版)
- 汽車(chē)診斷技能全程圖解
- 貨運(yùn)檢查作業(yè)常見(jiàn)問(wèn)題處置手冊(cè)
- 新型汽車(chē)維修調(diào)整數(shù)據(jù)速查手冊(cè)
- 鐵路信號(hào)系統(tǒng)網(wǎng)絡(luò)與信息安全
- 活筋壯骨保健法
- 圖解汽車(chē)構(gòu)造與原理
- 鐵道工程專(zhuān)業(yè)(線橋隧、鋼軌探傷)基礎(chǔ)知識(shí)與規(guī)章導(dǎo)讀
- 平安行萬(wàn)里
- 村鎮(zhèn)建筑節(jié)能工程
- CRTSⅡ Bi-block Ballastless Track Sleeper Prefabrication and Laying Technology
- 圖解微型車(chē)維修速成
- 城市軌道交通工程建設(shè)質(zhì)量安全控制應(yīng)知應(yīng)會(huì)