官术网_书友最值得收藏!

2.2.3 樸素貝葉斯算法

K近鄰算法和決策樹算法的共同特點是都不需要進行訓練。訓練是指利用已知類別的數據去構造一個數學模型,這個模型是通過反復計算得到的,可以用來判斷新的、類別不明的數據屬于什么類別。樸素貝葉斯算法就是一種需要訓練的分類方法。

樸素貝葉斯算法首先統計每一類中各種數據出現的可能性,也就是概率;然后利用這些概率來計算某種數據屬于任何一類的可能性有多大。

仍然前面的電影數據為例,將6部老電影的打斗鏡頭個數F按照小于40、大于或等于40與小于80之間、大于或等于80分成三個區間,并以同樣的方法,將接吻鏡頭個數K和爆破鏡頭個數B也分成三個區間,如表2.3所示。

表2.3 根據電影鏡頭個數劃分區間

樸素貝葉斯算法的計算步驟如下:

(1)根據某類條件,按某特征計算數據出現的概率P。下文中P(A)是指A事件發生的概率,P(A|B)是B事件發生的情況下,A事件發生的概率,即條件概率。根據表2.3可以得到:

P(F80|愛情片)=0

P(40F<80|愛情片)=0.5

P(F<40|愛情片)=0.5

P(K80|愛情片)=1

P(40K<80|愛情片)=0

P(K<40|愛情片)=0

(2)計算某類數據出現的概率。根據表2.3可以得到:

P(愛情片)=2/6

P(戰爭片)=1/6

P(動作片)=2/6

P(其他類型)=1/6

(3)根據某特征計算某類數據歸屬每一類的概率。在上述的電影數據中,當前電影具有F<40、K80、B<40的特征時,可得知當前電影屬于愛情片的概率為:

P(F<40|愛情片)×(K80|愛情片)×P(B<40|愛情片)×P(愛情片)=0.5×1×1×2/6=1/6

屬于戰爭片的概率為0,屬于動作片的概率為0,屬于其他類型影片的概率為0,故可以得出結論:當前電影屬于愛情片。

樸素貝葉斯算法的缺點是有時候兩條假設都得不到滿足;此外,在某些場合難以獲得準確的先驗概率。

主站蜘蛛池模板: 本溪| 额尔古纳市| 阿拉善左旗| 民丰县| 白玉县| 社旗县| 马关县| 永安市| 汕尾市| 五台县| 沙洋县| 察哈| 北安市| 武鸣县| 都安| 扬州市| 霞浦县| 龙海市| 新宁县| 井冈山市| 台江县| 崇文区| 新巴尔虎右旗| 榕江县| 波密县| 石河子市| 奇台县| 遂宁市| 西畴县| 东阿县| 沁水县| 元江| 吉安县| 奉贤区| 葵青区| 桓台县| 志丹县| 舞阳县| 寻乌县| 凤城市| 屏山县|