- 量子機器學習及區塊鏈技術導論
- 楊毅等編著
- 675字
- 2022-05-05 20:15:11
2.2.3 樸素貝葉斯算法
K近鄰算法和決策樹算法的共同特點是都不需要進行訓練。訓練是指利用已知類別的數據去構造一個數學模型,這個模型是通過反復計算得到的,可以用來判斷新的、類別不明的數據屬于什么類別。樸素貝葉斯算法就是一種需要訓練的分類方法。
樸素貝葉斯算法首先統計每一類中各種數據出現的可能性,也就是概率;然后利用這些概率來計算某種數據屬于任何一類的可能性有多大。
仍然前面的電影數據為例,將6部老電影的打斗鏡頭個數F按照小于40、大于或等于40與小于80之間、大于或等于80分成三個區間,并以同樣的方法,將接吻鏡頭個數K和爆破鏡頭個數B也分成三個區間,如表2.3所示。
表2.3 根據電影鏡頭個數劃分區間

樸素貝葉斯算法的計算步驟如下:
(1)根據某類條件,按某特征計算數據出現的概率P。下文中P(A)是指A事件發生的概率,P(A|B)是B事件發生的情況下,A事件發生的概率,即條件概率。根據表2.3可以得到:
P(F≥80|愛情片)=0
P(40≤F<80|愛情片)=0.5
P(F<40|愛情片)=0.5
P(K≥80|愛情片)=1
P(40≤K<80|愛情片)=0
P(K<40|愛情片)=0
(2)計算某類數據出現的概率。根據表2.3可以得到:
P(愛情片)=2/6
P(戰爭片)=1/6
P(動作片)=2/6
P(其他類型)=1/6
(3)根據某特征計算某類數據歸屬每一類的概率。在上述的電影數據中,當前電影具有F<40、K≥80、B<40的特征時,可得知當前電影屬于愛情片的概率為:
P(F<40|愛情片)×(K≥80|愛情片)×P(B<40|愛情片)×P(愛情片)=0.5×1×1×2/6=1/6
屬于戰爭片的概率為0,屬于動作片的概率為0,屬于其他類型影片的概率為0,故可以得出結論:當前電影屬于愛情片。
樸素貝葉斯算法的缺點是有時候兩條假設都得不到滿足;此外,在某些場合難以獲得準確的先驗概率。