官术网_书友最值得收藏!

2.2.6 Adaboost算法

Adaboost算法的主要思想是選用幾個(gè)效果不佳的分類(lèi)器,組合成為一個(gè)效果很好的分類(lèi)器,以避免支持向量機(jī)算法中的計(jì)算量問(wèn)題。Adaboost算法如圖2.6所示。

img

圖2.6 Adaboost算法

在圖2.6中,紅色(圓圈內(nèi)帶黑點(diǎn)者)和藍(lán)色(圓圈內(nèi)不帶黑點(diǎn)者)分別表示正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)。首先為所有的正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)賦予相同的權(quán)重,訓(xùn)練出一個(gè)基本的弱分類(lèi)器(Weak Classifier)1;注意圖右上角的兩個(gè)藍(lán)色的數(shù)據(jù)和左下角一個(gè)紅色的數(shù)據(jù),被錯(cuò)分了,因此在第2次訓(xùn)練時(shí),增加了錯(cuò)誤數(shù)據(jù)的權(quán)重,也就是放大了這些數(shù)據(jù),得到弱分類(lèi)器2;同樣,在第3次訓(xùn)練中,放大了弱分類(lèi)器2判斷錯(cuò)誤的兩個(gè)藍(lán)色數(shù)據(jù),得到弱分類(lèi)器3。最終的分類(lèi)器是所有弱分類(lèi)器的線性組合,也就是為弱分類(lèi)器加以權(quán)重α,α與每個(gè)弱分類(lèi)器自身的錯(cuò)誤率有關(guān)。

以2部愛(ài)情片和2部動(dòng)作片為例,數(shù)據(jù)包括了打斗鏡頭、接吻鏡頭和爆破鏡頭。首先對(duì)這4組數(shù)據(jù)賦予相同的權(quán)重,如都乘以1;然后訓(xùn)練弱分類(lèi)器1,也就是用爆破鏡頭個(gè)數(shù)大于或等于20,來(lái)進(jìn)行二元分類(lèi),即yes或no,2部愛(ài)情片沒(méi)有懸念地落在了no這一類(lèi),但有1部動(dòng)作片也“不幸”落入no這一類(lèi),另1部動(dòng)作片落入yes這一類(lèi)。分錯(cuò)是常見(jiàn)的,因?yàn)檫@是弱分類(lèi)器,所以需要對(duì)其進(jìn)行調(diào)整,增加分錯(cuò)數(shù)據(jù)的重要性,如錯(cuò)誤判斷為no的動(dòng)作片,把它的全部鏡頭個(gè)數(shù)都乘以2倍,再次訓(xùn)練這個(gè)弱分類(lèi)器,得到2部動(dòng)作片落入yes類(lèi)、2部愛(ài)情片落入no類(lèi)。

現(xiàn)實(shí)中數(shù)據(jù)往往沒(méi)有這么簡(jiǎn)單,不是一個(gè)分類(lèi)器就可以搞定的,因此需要構(gòu)建N個(gè)類(lèi)似的弱分類(lèi)器分別進(jìn)行調(diào)整,給每個(gè)調(diào)整后的弱分類(lèi)器分配權(quán)重αn,每個(gè)αn的值都來(lái)自調(diào)整后弱分類(lèi)器的最終錯(cuò)誤率。最后的分類(lèi)結(jié)果是將新電影數(shù)據(jù)輸入調(diào)整好的弱分類(lèi)器后的結(jié)果。在本節(jié)的電影數(shù)據(jù)中,經(jīng)過(guò)Adaboost算法處理后,新電影被正確地分類(lèi)為愛(ài)情片。

用一句話來(lái)概括Adaboost算法,就是訓(xùn)練多個(gè)弱分類(lèi)器,使其成為一個(gè)好的分類(lèi)器。Adaboost算法是一種具有很高精度的分類(lèi)器,并且很容易理解;其缺點(diǎn)是訓(xùn)練時(shí)間過(guò)長(zhǎng),異常樣本在迭代中可能會(huì)獲得較高的權(quán)重,影響最終分類(lèi)結(jié)果的準(zhǔn)確性。

主站蜘蛛池模板: 汉源县| 南通市| 衡阳县| 丹江口市| 永康市| 繁昌县| 班戈县| 宜昌市| 富平县| 高青县| 上栗县| 化州市| 东乌| 寻乌县| 毕节市| 和顺县| 上犹县| 巫山县| 玉山县| 雷山县| 临西县| 婺源县| 随州市| 隆回县| 攀枝花市| 天台县| 龙江县| 通河县| 南召县| 广汉市| 治多县| 白朗县| 巩留县| 泰和县| 通道| 旬邑县| 宜都市| 明水县| 台安县| 修文县| 呼和浩特市|