- 數(shù)字圖像處理原理與實踐
- 秦志遠
- 4166字
- 2019-04-17 11:44:27
1.1 圖像及圖像工程
1.1.1 對圖像的認識
眾所周知,人類是借助視覺、聽覺、觸覺、味覺、嗅覺等方式來感知世界的。而視覺是人類從客觀世界中獲取物體的顏色、紋理和形態(tài)大小等信息的最主要手段,是我們自出生以來的體驗中最重要、最豐富的部分,更是人類感知色彩斑斕的世界,進而傳遞、表達和理解視覺信息來認識世界和改造世界的主要途徑。
從人類視覺的角度來講,圖像就是二維或三維景物呈現(xiàn)在視網(wǎng)膜上的視覺記憶。按章毓晉在其編著的《圖像工程》中的描述,圖像應該包含兩層含義,即“圖”和“像”。所謂“圖”,就是物體透射或者反射具有一定波長范圍和能量的光分布;“像”是人的視覺系統(tǒng)接收圖的信息而在大腦中形成的印象或認識。前者是客觀存在的,而后者是人的感覺(推測是在象的左邊放上單立人的緣故)。圖像應該是兩者的結(jié)合,即客觀世界通過光學系統(tǒng)產(chǎn)生的視覺記憶,是對客觀存在的物體的一種相似性描述或?qū)懻妗R虼耍瑘D像中肯定包含了被描述對象的相關(guān)信息,比如形狀、大小、顏色、位置及相互關(guān)系等。或者從廣義的角度出發(fā),我們可以這樣認為:圖像是用各種觀測系統(tǒng)以不同形式和手段觀測客觀世界而獲得的,可以直接或間接作用于人眼而產(chǎn)生視知覺的實體。人眼、數(shù)碼相機、攝像機,以及搭載在各類航空航天平臺上的傳感器等等都可以認為是有效的觀測系統(tǒng)。
根據(jù)人眼視覺的可視性可將圖像簡單地分為可見圖像和不可見圖像。如果我們考慮將所有物體作為一個集合,圖像則形成了其中的一個子集,并且在這個子集中的每幅圖像都和它所表示的物體存在著某種對應關(guān)系。在圖像集合中,有一個非常重要的、包含了所有可見圖像,即可由人眼看見的圖像的子集。在該子集中又包含幾種不同方法產(chǎn)生的圖像的子集,一個子集為圖片,它包括照片、圖(指用線條畫成的,類似于AutoCAD的繪圖產(chǎn)品)和畫(油畫、素描、水粉畫等);另一個子集為光圖像,即用透鏡、光柵和全息技術(shù)產(chǎn)生的各種光學圖像。不可見的物理圖像如溫度、壓力、高度以及人口密度等的平面或空間分布圖。它們無法用人眼直接進行觀察,但是可以借助特定的測量儀器或統(tǒng)計方法獲得并通過處理使其可見。
還有一種圖像子集是由連續(xù)函數(shù)或離散函數(shù)構(gòu)成的抽象的數(shù)學圖像。我們認為,圖像各個位置上的屬性值乃是多種因素(包括光源的強度、顏色、位置和性質(zhì),場景中物體的位置、反射率和透明度,傳輸媒質(zhì)的透射率、折射率、吸收和散射特性,以及成像設(shè)備的光電特性)交互作用的結(jié)果,圖像具有空間坐標和屬性。根據(jù)其連續(xù)性,可將圖像分為模擬圖像和數(shù)字圖像。模擬圖像又稱為光學圖像、物理圖像或連續(xù)圖像。這種圖像類似于用膠片成像而得到的相片,是指空間坐標和圖像數(shù)值連續(xù)變化的、計算機無法直接處理的圖像,描述了物質(zhì)或能量的實際分布,屬于可見圖像。數(shù)字圖像則指空間坐標和圖像數(shù)值不連續(xù)的、用一定的數(shù)字編碼存儲的、可用計算機直接處理的圖像。一幅圖像可定義為一個二維連續(xù)函數(shù)f(x,y),這里x和y是空間坐標,而在任何一對空間坐標(x,y)上的幅值f稱為該點圖像的強度(亮度或灰度)。當x、y和幅值f都為有限的離散數(shù)值時,稱該圖像為數(shù)字圖像。關(guān)于連續(xù)圖像和離散圖像的概念及聯(lián)系,將在后面詳細敘述。
圖1.1表示圖像的基本類型。這幅關(guān)于圖像基本類型的分類圖最早出現(xiàn)在1996年[美]Kenneth R.Castleman編著的《Digital Image Processing》中,且已經(jīng)在國內(nèi)很多關(guān)于圖像處理的教科書中出現(xiàn)過,概括得很全面,也比較合理。

圖1.1 圖像的基本類型
也可以從不同的側(cè)面對圖像的類型進行認識。
第一種類型,考慮圖像的色彩特性,把圖像分為灰度圖像(或黑白圖像)和彩色圖像。黑白圖像(或灰度圖像,Intensity Images)在每個像點上只有一個歸一化的取值表示亮度值的分布,不包含彩色信息的圖像。就像我們平時看到的亮度由暗到亮的黑白照片,變化是連續(xù)的。二值圖像(Binary Images)是灰度圖像的特例,一幅二值圖像由取值只有0和1的邏輯數(shù)組元素構(gòu)成。而彩色圖像每個像點上的屬性值可被分解為紅、綠、藍三個不同的亮度值,這個屬性值表示物體在不同光譜段上的反射強度,可通過視覺感知而得到不同的顏色。通常可把彩色圖像分為索引圖像(Indexed Images)和RGB圖像(RGB Images)。索引圖像有兩個分量,即整數(shù)的數(shù)據(jù)矩陣和彩色映射矩陣,映射矩陣的每一行都定義單色的紅、綠、藍三個分量,索引圖像將像素的亮度值“直接映射”到彩色值,每個像素的顏色由對應的整數(shù)矩陣的元素值指向彩色映射矩陣的一個地址決定。RGB圖像是由按一定順序排列的各個像素的R、G、B三個顏色值直接表示的。
第二種類型,根據(jù)圖像的時間特性,把圖像分為靜態(tài)圖像和動態(tài)圖像。簡單地說,我們常見的照片就是靜態(tài)圖像,而電影或電視畫面就是動態(tài)圖像。動態(tài)圖像又稱為視頻圖像、活動圖像、運動圖像或序列圖像,它是由一組靜態(tài)圖像在時間軸上的有序排列構(gòu)成的。
未加特殊提示,書中所說的圖像指的是靜態(tài)的灰度或彩色圖像。
1.1.2 圖像工程及包含的內(nèi)容
在廣義上,圖像工程是指各種與圖像有關(guān)技術(shù)的總稱。按系統(tǒng)工程的觀點,把圖像工程描述為一個金字塔式的“處理錐”,即以原始圖像數(shù)據(jù)為錐底,通過預處理和圖像變換階段,然后上升到特征提取和識別,最后以知識為引導,經(jīng)過推理和理解達到錐頂,即求得圖像處理問題的解答。整個系統(tǒng)以圖像處理算法控制流、圖像數(shù)據(jù)流為線索,組成高層次的智能化圖像處理系統(tǒng)。常規(guī)而言,圖像工程所涉及的研究內(nèi)容按照抽象程度和智能化水平可分為三個層次,即圖像處理、圖像分析和圖像理解。其層次分布如圖1.2所示。

圖1.2 “金字塔”式的處理錐
圖1.2左側(cè)標注“高水平”與“低水平”的縱線代表的是對圖像數(shù)據(jù)處理過程中所采用算法對應的抽象程度及智能化水平的描述,也可以考慮是通過低級、中級和高級的三種類型的綜合算法用計算機處理來劃分。抽象程度高,數(shù)據(jù)量逐漸減少,研究難度越來越大,技術(shù)含量越來越高。而研究內(nèi)容的三個層次相互間實際上是有交融的,目前并無十分明確的界定。如圖像處理和圖像分析兩個層次比較合乎邏輯的重疊區(qū)域應該是對圖像中特定目標對應區(qū)域的提取與識別這一領(lǐng)域。
圖像處理(Image Processing),與處理錐的第一層至第三層的研究內(nèi)容相關(guān)。主要是對圖像信息進行加工得到滿足人的視覺心理或應用需求行為的圖像,為目標自動識別和圖像理解打下基礎(chǔ),或?qū)D像進行壓縮編碼,以減少圖像的存儲空間或提高對其傳輸?shù)乃俣鹊取4篌w上可以這樣認為,圖像處理是一個從圖像到圖像的過程,主要研究內(nèi)容包括圖像的采集與獲取、圖像變換、圖像降低噪聲的預處理濾波、圖像對比度增強和圖像銳化、圖像復原、圖像重建和圖像編碼等。
圖像分析(Image Analysis),與處理錐的第三層至第四層的研究內(nèi)容相關(guān)。要求對圖像中感興趣的目標進行特征提取和測量,以獲得目標的客觀信息,從而幫助我們建立對圖像的描述。特征提取是計算機視覺和圖像處理中的一個概念。它指的是使用計算機提取圖像信息,決定每個圖像的點是否屬于一個圖像特征(邊緣、角點、區(qū)域或顏色、紋理、形狀、空間關(guān)系特征等)。特征提取的結(jié)果是把圖像上的點分為不同的子集,這些子集往往屬于孤立的點、連續(xù)的曲線或者連續(xù)的區(qū)域。特征描述又稱特征選擇,選擇特征是某些感興趣的定量信息或區(qū)分一組目標與其他目標的基礎(chǔ)。識別則是基于目標的描述給目標賦予標號的過程。比如從圖像上提取目標的邊緣(區(qū)分一個圖像區(qū)域和另一個區(qū)域的像素集)、輪廓以及單個對象的特征信息,并進行細化、連接和矢量跟蹤以表達和測量目標。圖像分析是一個從圖像到數(shù)據(jù)的過程。這里的數(shù)據(jù)可以是對目標特征測量的結(jié)果,或是基于測量的符號表示,它們描述了圖像中感興趣目標的某些特點和性質(zhì)。
圖像理解(Image Understanding),則位于處理錐的頂層。主要是指在圖像處理及圖像分析的基礎(chǔ)上,進一步研究圖像中的目標及其相互之間的聯(lián)系,通過執(zhí)行通常與人類視覺相關(guān)的感知函數(shù),做出對圖像內(nèi)容含義的理解以及對原來客觀場景的解釋及總體確認,從而可以指導和規(guī)劃行動。研究內(nèi)容包括圖像匹配、圖像解釋與推理等。
由上述分析可知,圖像處理、圖像分析和圖像理解是處在三個抽象程度和數(shù)據(jù)量各有特點的不同層次上。圖像處理是比較低層的操作,也是最基礎(chǔ)的操作,它主要在圖像的元素(像素)上進行處理,處理的原始圖像數(shù)據(jù)量非常大;圖像分析位于圖像工程的中層,利用圖像分割和特征提取等技術(shù)把原來以像素描述的圖像轉(zhuǎn)變成比較簡潔的非圖像形式的符號描述;圖像理解則主要是高層操作,基本上是相關(guān)的符號運算和語義描述。圖像理解的處理過程和方法與人類的思維推理有許多類似之處,人工智能、模式識別、計算機視覺和專家系統(tǒng)的很多研究成果可以應用到圖像的理解中。抽象程度和對智能化要求的提高,涉及的數(shù)據(jù)由原始的圖像數(shù)據(jù)到一些特征的描述,數(shù)據(jù)量是逐漸減少的,但是研究難度越來越大,與處理者的經(jīng)驗、智能相關(guān)性提高,技術(shù)含量也越來越高。
另外,像計算機視覺這樣的領(lǐng)域,其最終目的是用計算機來模仿人類視覺,包括學習和推理,并根據(jù)視覺輸入采取相應的行動。該領(lǐng)域本身是人工智能的一個分支,其目的是模仿人類智能。
隨著圖像處理技術(shù)研究的不斷深入,上述三個層次作為圖像工程這個連續(xù)的統(tǒng)一體內(nèi)緊密相關(guān)的研究內(nèi)容并沒有明確的界限,區(qū)分的界線也變得十分模糊,很多內(nèi)容已經(jīng)交融在一起并互相促進。所以,想從技術(shù)上嚴格地區(qū)分圖像處理、圖像分析和圖像理解是十分困難的。近些年對圖像工程研究的趨勢表明,國內(nèi)外諸多學者將從圖像中提取目標特征的方法、圖像簡單的代數(shù)運算、三維建模和場景恢復等也逐步歸入圖像處理的技術(shù)范疇。
圖像工程過程模型如圖1.3所示。整個圖像處理過程可概略地分為如下幾步:第一步是由圖像輸入裝置把圖像送入計算機。一般情況下,輸入的圖像中常常包含著各種噪聲或失真,這就需要第二步,即去除噪聲和失真,使圖像變得易于觀看,或者使圖像中的對象物變得易于識別。這一過程稱為圖像預處理,主要包括圖像增強處理、圖像幾何校正、二值化處理等。第三步是為區(qū)分對象物和非對象物而進行的圖像固有特征提取。例如在進行文字識別時,就需要提取文字輪廓線的形狀及筆畫線段的位置、方向、交點、閉合框等幾何特征。主要包括邊緣提取、細化處理、膨脹與收縮、尺度量算及標注等。第四步是利用提取出的特征來識別對象物。包括模型匹配、結(jié)構(gòu)分析和語義描述等。不過,實際中很少能僅由最初設(shè)想的各步驟內(nèi)容一成不變地進行到識別為止,而是一邊由人來觀察各過程的處理結(jié)果,一邊對其進行修正或追加處理內(nèi)容,即給處理過程加上必要的反饋,使處理結(jié)果滿足要求。

圖1.3 圖像工程過程模型
- Photoshop 移動UI設(shè)計基礎(chǔ)與案例教程
- 數(shù)字圖像處理技術(shù):基于Python的實現(xiàn)
- 平面圖像設(shè)計(Photoshop CS6)(第二版)
- 數(shù)字圖像處理實戰(zhàn)
- 中文版Flash CS6完全自學一本通
- 中文版Photoshop CS4廣告設(shè)計藝術(shù)
- 中文版Photoshop CS6圖像處理入門與提高
- iLike職場數(shù)碼照片修飾處理完美實現(xiàn)
- Photoshop CS6中文版從入門到精通
- Dreamweaver CC網(wǎng)頁制作實戰(zhàn)從入門到精通
- 你好,色彩 Photoshop CS6色彩調(diào)整功能與應用
- 詳解AutoCAD 2012電氣設(shè)計
- Photoshop圖像處理傻瓜書(第二版)
- After Effects影視特效實例教程
- 3ds Max 2013完全自學經(jīng)驗分享