官术网_书友最值得收藏!

1.1.2 判別模型與生成模型

為了避免讀者對幾個常見概念產生混淆,本節我們僅限于在監督學習的范圍內介紹判別模型與生成模型。根據1.1.1節可知,監督學習是指學習一個模型,然后利用該模型對給定的輸入預測相應的輸出。我們可將模型寫成函數形式Y=fX)或條件概率分布形式pY|X),并根據條件概率分布的計算方式將其分為判別模型與生成模型。

在判別模型中,我們直接對pY|X)進行建模,試圖描述在給定輸入特征X的情況下標簽信息Y的分布。典型的判別模型包括k近鄰法、感知機、決策樹、邏輯回歸和條件隨機場等。判別模型對條件概率模型直接建模,無法反映訓練數據本身的概率特性,但是以分類問題為例,判別模型在尋找最優分類面的過程中,學習了不同類別數據之間的差異。另外,判別模型可以對數據進行各種程度上的抽象、降維,因此可以簡化學習問題,提高學習準確率。

在生成模型中,對數據特征X和標簽Y的聯合分布pXY)進行建模,然后利用條件概率公式,即可計算pY|X),如下所示:

實際上,我們通常將聯合分布變換成易于求解的形式:

其中,pY)為標簽信息Y的先驗概率,描述了在對樣本特征X一無所知的情況下Y的概率分布。pY|X)為標簽Y的后驗概率,描述了在明確樣本特征XY的概率分布。典型的生成模型有樸素貝葉斯方法和隱馬爾可夫模型等。在樸素貝葉斯方法中,我們通過訓練集學習到先驗概率分布pY)和條件概率分布pX|Y),即可得到聯合概率分布pXY);在隱馬爾可夫模型中,我們通過訓練集學習到初始概率分布、狀態轉移概率矩陣和觀測概率矩陣,即可得到一個表示狀態序列與觀測序列聯合分布的馬爾可夫模型。

生成模型直接學習聯合分布,可以更好地表示數據的分布,反映同類數據的相似度。當樣本數量比較大時,生成模型往往可以更快、更好地收斂到真實模型上。另外,生成模型可以處理含有隱變量的情況,而判別模型對此無能為力。生成模型也可以通過計算邊緣分布P(X)來檢測某些異常值。但在實踐中,生成模型的計算開銷一般比較大,而且多數情況下其效果不如判別模型。

主站蜘蛛池模板: 沙田区| 深圳市| 平远县| 新安县| 岳池县| 新河县| 福鼎市| 凤翔县| 宝坻区| 呼图壁县| 崇明县| 内乡县| 宣恩县| 乌兰县| 三河市| 即墨市| 崇义县| 乐业县| 西平县| 武功县| 简阳市| 武隆县| 海门市| 兰坪| 化州市| 泌阳县| 漳平市| 邵阳县| 丰都县| 称多县| 涡阳县| 双流县| 黄龙县| 星座| 平和县| 阳谷县| 运城市| 开原市| 明溪县| 上蔡县| 荔浦县|