官术网_书友最值得收藏!

2.2 提取分類任務(wù)中的特征

們往往會(huì)根據(jù)事物具有的一些特點(diǎn)來區(qū)分它們,比如辨別不同鳶尾花品種的時(shí)候,依據(jù)的是鳶尾花的花瓣大小。我們將像這種可以對(duì)事物的某些方面的特點(diǎn)進(jìn)行刻畫的數(shù)字或者屬性稱之為特征。

在鳶尾花分類中,怎樣才能得到可以被人工智能系統(tǒng)所使用的特征呢?經(jīng)過嘗試,人們發(fā)現(xiàn)用花瓣的長度和寬度作為鳶尾花的特征,可以讓分類器有效地分類。

特征是在分類器乃至于所有人工智能系統(tǒng)中非常重要的概念。對(duì)同樣的事物,我們可以提取出各種各樣的特征。比如,可以用鳶尾花植株的高度或者花瓣顏色作為特征。但是,鳶尾花的植株高度和品種沒有直接關(guān)系,一朵鳶尾花在生命的不同階段也有著不同的高度;再者不同鳶尾花品種又都有著顏色相近的花瓣。所以用鳶尾花的植株高度和花瓣顏色很難有效區(qū)分鳶尾花的品種。我們看到,不同的特征對(duì)于分類器的準(zhǔn)確分類會(huì)有很大的影響。

因此,我們需要根據(jù)物體和數(shù)據(jù)本身具有的特點(diǎn),考慮不同類別之間的差異,并在此基礎(chǔ)上設(shè)計(jì)出有效的特征。而這不是一件簡單的事,它往往需要我們真正理解事物的特點(diǎn)和不同類型之間的差異。特征的質(zhì)量很大程度上決定了分類器最終分類效果的好壞。

2.2.1 特征向量

通過實(shí)際的測量,我們得到了鳶尾花的特征——花瓣的長度和寬度,那么在數(shù)學(xué)上如何表達(dá)它們呢?我們可以用x1來表示花瓣的長度,用x2來表示花瓣的寬度。為了使用方便,進(jìn)一步地把這兩個(gè)數(shù)字一起放進(jìn)括號(hào)中,寫成(x1,x2)。這種形式的一組數(shù)據(jù)在數(shù)學(xué)中被稱為向量。

有了向量這個(gè)數(shù)學(xué)工具后,我們就可以把描述一個(gè)事物的特征數(shù)值都組織在一起,形成一個(gè)特征向量,對(duì)它進(jìn)行更完備的刻畫。一般地,一個(gè)n維的特征向量可以被表示為x=(x1,x2,x3,…,xn)。比如測量得到一朵鳶尾花的花瓣長度為1.1cm,寬度為0.1cm,那么這朵鳶尾花的特征就可以用(1.1,0.1)表示。

2.2.2 特征點(diǎn)和特征空間

有了特征的向量表示之后,進(jìn)一步,我們可以把特征向量表示在直角坐標(biāo)系中,比如(1.1,0.1),就可以是直角坐標(biāo)系中的一個(gè)點(diǎn)。

我們將鳶尾花的特征向量畫在了坐標(biāo)系中。坐標(biāo)系中的一個(gè)點(diǎn)就代表了一朵鳶尾花的特征,這些表示特征向量的點(diǎn)被稱為特征點(diǎn)。所有這些特征點(diǎn)構(gòu)成的空間稱為特征空間。

在特征空間中,特征點(diǎn)到特征點(diǎn)之間的平面距離可以用來衡量鳶尾花之間的相似程度。一般地,對(duì)于任意維數(shù)的特征空間,我們都可以使用特征點(diǎn)之間的平面距離來衡量鳶尾花之間的相似程度。一般地,對(duì)于任意維數(shù)的特征空間,我們都可以使用特征點(diǎn)之間的距離來衡量物體之間的相似程度。高維特征空間的距離計(jì)算公式與二維特征空間的類似,比如在三維空間里,有兩個(gè)點(diǎn)分別表示為(x1,x2,x3)和(z1,z2,z3),那么兩個(gè)點(diǎn)之間的距離d可以通過下面的式子進(jìn)行計(jì)算:

主站蜘蛛池模板: 武邑县| 宣城市| 东莞市| 裕民县| 石城县| 武定县| 黔江区| 临江市| 古浪县| 常熟市| 大姚县| 澜沧| 龙游县| 怀化市| 十堰市| 腾冲县| 汾西县| 石家庄市| 延吉市| 通许县| 庆云县| 鹤峰县| 福州市| 华池县| 连平县| 南康市| 井冈山市| 行唐县| 合水县| 龙州县| 沧源| 登封市| 谷城县| 峨眉山市| 海盐县| 辽宁省| 南城县| 兰考县| 桃源县| 昭平县| 大邑县|