2.2.2 圖像表達
畫面識別是從大量的(x,y)數據中尋找人類的視覺關聯方式,并再次應用。其中,x是輸入,y表示所識別到的物體種類。輸入的圖像x在計算機中是一堆按順序排列的數字,數值為0~255,其中0表示最暗,255表示最亮,如圖2.8所示。為保留該結構信息,通常選擇矩陣的表示方式,如28×28的矩陣。

圖2.8 灰度圖的圖像表達示意圖
圖2.8是只有黑白顏色的灰度圖,而更普遍的圖片表達方式是RGB顏色模型,即紅(Red)、綠(Green)、藍(Blue)三原色的色光以不同的比例相加,以產生多種多樣的色光。這樣,在RGB顏色模型中,單個矩陣就擴展成了有序排列的3個矩陣,也可以用三維張量去理解,其中的每一個矩陣又叫這個圖片的一個通道(Channel)。在計算機中,一張圖片是數字構成的“長方體”,可用寬(width)、高(height)、深(depth)來描述,如圖2.9所示。

圖2.9 RGB圖片的圖像表達示意圖