- 人工智能基礎(chǔ)
- 周穎 鄭文明 徐衛(wèi) 趙力編著
- 1066字
- 2020-09-18 18:21:25
2.2 提取分類任務(wù)中的特征
我們往往會(huì)根據(jù)事物具有的一些特點(diǎn)來區(qū)分它們,比如辨別不同鳶尾花品種的時(shí)候,依據(jù)的是鳶尾花的花瓣大小。我們將像這種可以對(duì)事物的某些方面的特點(diǎn)進(jìn)行刻畫的數(shù)字或者屬性稱之為特征。
在鳶尾花分類中,怎樣才能得到可以被人工智能系統(tǒng)所使用的特征呢?經(jīng)過嘗試,人們發(fā)現(xiàn)用花瓣的長度和寬度作為鳶尾花的特征,可以讓分類器有效地分類。
特征是在分類器乃至于所有人工智能系統(tǒng)中非常重要的概念。對(duì)同樣的事物,我們可以提取出各種各樣的特征。比如,可以用鳶尾花植株的高度或者花瓣顏色作為特征。但是,鳶尾花的植株高度和品種沒有直接關(guān)系,一朵鳶尾花在生命的不同階段也有著不同的高度;再者不同鳶尾花品種又都有著顏色相近的花瓣。所以用鳶尾花的植株高度和花瓣顏色很難有效區(qū)分鳶尾花的品種。我們看到,不同的特征對(duì)于分類器的準(zhǔn)確分類會(huì)有很大的影響。
因此,我們需要根據(jù)物體和數(shù)據(jù)本身具有的特點(diǎn),考慮不同類別之間的差異,并在此基礎(chǔ)上設(shè)計(jì)出有效的特征。而這不是一件簡單的事,它往往需要我們真正理解事物的特點(diǎn)和不同類型之間的差異。特征的質(zhì)量很大程度上決定了分類器最終分類效果的好壞。
2.2.1 特征向量
通過實(shí)際的測量,我們得到了鳶尾花的特征——花瓣的長度和寬度,那么在數(shù)學(xué)上如何表達(dá)它們呢?我們可以用x1來表示花瓣的長度,用x2來表示花瓣的寬度。為了使用方便,進(jìn)一步地把這兩個(gè)數(shù)字一起放進(jìn)括號(hào)中,寫成(x1,x2)。這種形式的一組數(shù)據(jù)在數(shù)學(xué)中被稱為向量。
有了向量這個(gè)數(shù)學(xué)工具后,我們就可以把描述一個(gè)事物的特征數(shù)值都組織在一起,形成一個(gè)特征向量,對(duì)它進(jìn)行更完備的刻畫。一般地,一個(gè)n維的特征向量可以被表示為x=(x1,x2,x3,…,xn)。比如測量得到一朵鳶尾花的花瓣長度為1.1cm,寬度為0.1cm,那么這朵鳶尾花的特征就可以用(1.1,0.1)表示。
2.2.2 特征點(diǎn)和特征空間
有了特征的向量表示之后,進(jìn)一步,我們可以把特征向量表示在直角坐標(biāo)系中,比如(1.1,0.1),就可以是直角坐標(biāo)系中的一個(gè)點(diǎn)。
我們將鳶尾花的特征向量畫在了坐標(biāo)系中。坐標(biāo)系中的一個(gè)點(diǎn)就代表了一朵鳶尾花的特征,這些表示特征向量的點(diǎn)被稱為特征點(diǎn)。所有這些特征點(diǎn)構(gòu)成的空間稱為特征空間。
在特征空間中,特征點(diǎn)到特征點(diǎn)之間的平面距離可以用來衡量鳶尾花之間的相似程度。一般地,對(duì)于任意維數(shù)的特征空間,我們都可以使用特征點(diǎn)之間的平面距離來衡量鳶尾花之間的相似程度。一般地,對(duì)于任意維數(shù)的特征空間,我們都可以使用特征點(diǎn)之間的距離來衡量物體之間的相似程度。高維特征空間的距離計(jì)算公式與二維特征空間的類似,比如在三維空間里,有兩個(gè)點(diǎn)分別表示為(x1,x2,x3)和(z1,z2,z3),那么兩個(gè)點(diǎn)之間的距離d可以通過下面的式子進(jìn)行計(jì)算:
