- 商用機(jī)器學(xué)習(xí):數(shù)據(jù)科學(xué)實(shí)踐
- (加)約翰·赫爾
- 2435字
- 2020-10-16 17:15:26
1.5 貝葉斯定理
在機(jī)器學(xué)習(xí)中,我們有時(shí)候會(huì)對(duì)估計(jì)結(jié)果的可能性感興趣。這個(gè)結(jié)果可能是一筆消費(fèi)者貸款違約,或者一筆被證實(shí)的欺詐性交易。在通常情況下,一個(gè)結(jié)果的發(fā)生會(huì)有一個(gè)初始概率。當(dāng)收到新的數(shù)據(jù)后,這個(gè)概率會(huì)更新成為基于這個(gè)新數(shù)據(jù)的條件概率。貝葉斯定理常常用于計(jì)算條件概率。
貝葉斯定理是托馬斯·貝葉斯在1760年提出的:假設(shè)P(X)是事件X可能發(fā)生的概率,P(Y|X)是在事件X發(fā)生的條件下,事件Y發(fā)生的概率。貝葉斯定理指出:
貝葉斯定理的證明過(guò)程非常直觀,從條件概率的定義出發(fā):
以及:
將式(1-4)中的P(X,Y)替換成P(X|Y)P(Y),便得到了貝葉斯定理的公式。
舉個(gè)貝葉斯定理的實(shí)際應(yīng)用例子。假定銀行現(xiàn)在需要識(shí)別哪些消費(fèi)者有不正常交易的記錄,通過(guò)歷史數(shù)據(jù)已知90%的不正常交易記錄金額都超過(guò)10萬(wàn)美元,且發(fā)生在下午4點(diǎn)到5點(diǎn)之間。在總交易記錄中,不正常交易數(shù)量占比為1%,發(fā)生在下午4點(diǎn)到5點(diǎn)之間的超過(guò)10萬(wàn)美元的交易記錄占3%。
根據(jù)上述條件,我們定義:
·X:發(fā)生在下午4點(diǎn)到5點(diǎn)之間,且交易金額超過(guò)10萬(wàn)美元;
·Y:不正常交易。
已知P(Y)=0.01,P(X|Y)=0.9,P(X)=0.03,根據(jù)貝葉斯定理:
在隨機(jī)抽取一部分交易記錄時(shí),可能抽取到不正常交易的概率僅為1%。但是當(dāng)我們加上“發(fā)生在下午4點(diǎn)到5點(diǎn)之間,且交易金額超過(guò)10萬(wàn)美元”這個(gè)限制條件時(shí),通過(guò)貝葉斯定理計(jì)算出的概率提升為30%。該定理的作用顯而易見(jiàn)。如果這家銀行擁有網(wǎng)上交易系統(tǒng),則可以將系統(tǒng)設(shè)置為禁止下午4點(diǎn)到5點(diǎn)之間超過(guò)10萬(wàn)美元的交易行為,并對(duì)符合這些條件的交易進(jìn)行進(jìn)一步核查。
貝葉斯定理有效地允許我們?cè)谟?jì)算概率的時(shí)候,將條件約束進(jìn)行反轉(zhuǎn),這樣所獲得的結(jié)果往往與我們主觀的認(rèn)知有所不同。假設(shè)一種疾病的確診準(zhǔn)確度高達(dá)99%(也就是說(shuō),如果一個(gè)人在有病的情況下去做檢測(cè),那么檢測(cè)結(jié)果有99%的概率為陽(yáng)性,即檢測(cè)出這個(gè)人有病)。我們同樣假設(shè),當(dāng)一個(gè)人在沒(méi)病的情況下去做檢測(cè)時(shí),檢測(cè)結(jié)果有99%的概率是陰性(即沒(méi)有檢測(cè)出這個(gè)人有病)。在這里,假設(shè)這種疾病非常罕見(jiàn),即個(gè)體患病的(無(wú)條件)概率僅有萬(wàn)分之一。如果某個(gè)人已經(jīng)被檢測(cè)為陽(yáng)性,那么此人確實(shí)被感染的概率是多少?
第一個(gè)想到的答案是99%(畢竟有99%的準(zhǔn)確率)。然而,卻混淆了條件概率結(jié)束。假設(shè)X代表測(cè)試結(jié)果為陽(yáng)性,Y代表測(cè)試者被感染,我們需要計(jì)算的概率是P(Y|X),而我們已知的是P(X|Y)=0.99,P(Y)=0.000 1;另外,假設(shè)代表測(cè)試結(jié)果為陰性,
代表此人沒(méi)有被感染,且已知:
以及:
因?yàn)闊o(wú)論是X還是,總有一個(gè)為真,所以,我們知道P(
|
)+P(X|
)=1,由此得出:
綜上,測(cè)試結(jié)果為陽(yáng)性的可能性為:
套用貝葉斯定理式(1-3),得出:
從這里可以看出來(lái),如果你得到一個(gè)陽(yáng)性的檢測(cè)結(jié)果,你得該病的概率少于1%。檢測(cè)結(jié)果相對(duì)于無(wú)條件概率0.000 1而言增加了98倍,但依然很低。這里最關(guān)鍵的是,“準(zhǔn)確率”被定義為在一個(gè)人患病的條件下獲得正確的診斷結(jié)果的條件概率,而并非相反的條件。
我們將在第4章中以貝葉斯定理為基礎(chǔ),向各位讀者介紹樸素貝葉斯分類(lèi)器。
小結(jié)
機(jī)器學(xué)習(xí)是涉及從大數(shù)據(jù)中進(jìn)行學(xué)習(xí)的人工智能的一個(gè)分支。它包括開(kāi)發(fā)算法來(lái)進(jìn)行預(yù)測(cè)、數(shù)據(jù)聚類(lèi)或與環(huán)境以最佳交互的方式進(jìn)行序貫決策。
傳統(tǒng)的統(tǒng)計(jì)分析方法首先是建立一個(gè)假設(shè)(在不參考數(shù)據(jù)的情況下),然后再對(duì)假設(shè)進(jìn)行驗(yàn)證。但機(jī)器學(xué)習(xí)不同,它不設(shè)置任何假設(shè)前提,模型可以整體從數(shù)據(jù)中衍生出來(lái)。
驗(yàn)證和測(cè)試是機(jī)器學(xué)習(xí)中非常重要的部分。運(yùn)用機(jī)器學(xué)習(xí)建立的模型必須在樣本外進(jìn)行測(cè)試。一個(gè)過(guò)于復(fù)雜的模型可能會(huì)導(dǎo)致對(duì)訓(xùn)練集的過(guò)度擬合,從而不能很好地泛化到新的數(shù)據(jù)集,而一個(gè)過(guò)于簡(jiǎn)單的模型可能無(wú)法捕獲數(shù)據(jù)的重要特性。因此,數(shù)據(jù)集需要被拆分為三組:訓(xùn)練集用于建立備選模型,驗(yàn)證集用于檢驗(yàn)?zāi)P蛯?duì)于數(shù)據(jù)的通用性,測(cè)試集被放在最后,用于選定模型準(zhǔn)確性的最后檢測(cè)。
不能忽略的一點(diǎn)是,在運(yùn)用機(jī)器學(xué)習(xí)算法之前,必須要先進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)按照性質(zhì)可分為數(shù)值型和分類(lèi)型兩種,不論哪一種都可能存在數(shù)據(jù)記錄格式不一致、數(shù)據(jù)無(wú)效等問(wèn)題。同時(shí)對(duì)于數(shù)據(jù),我們還需要檢查重復(fù)性問(wèn)題,以及可能由此導(dǎo)致的偏差。對(duì)于很明顯因?yàn)殇浫胧д`導(dǎo)致的異常值,我們要將其剔除,最后我們需要以合適的方法處理缺失數(shù)據(jù),以免結(jié)果出現(xiàn)偏差。
貝葉斯定理有時(shí)被用于量化一些不確定性,這是一種逆轉(zhuǎn)條件概率的方法。假設(shè)我們已知事件Y發(fā)生的概率,并能夠觀測(cè)到另外一個(gè)相關(guān)的事件X的發(fā)生。又假設(shè)根據(jù)經(jīng)驗(yàn)我們知道在事件Y發(fā)生的條件下事件X發(fā)生的概率,那么貝葉斯定理可以讓我們計(jì)算在事件X發(fā)生的條件下事件Y發(fā)生的概率。
正如我們?cè)诒菊轮刑岬降模瑱C(jī)器學(xué)習(xí)有別于傳統(tǒng)統(tǒng)計(jì)學(xué),有其自身的術(shù)語(yǔ)體系。在本章最后,我們做一下總結(jié)。特征是我們目前已有的觀測(cè)數(shù)據(jù),目標(biāo)是我們想要對(duì)其進(jìn)行預(yù)測(cè)的變量,標(biāo)簽是對(duì)目標(biāo)的觀測(cè)結(jié)果。監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,我們使用相關(guān)特征和目標(biāo)的數(shù)據(jù)來(lái)預(yù)測(cè)新數(shù)據(jù)的目標(biāo)。無(wú)監(jiān)督學(xué)習(xí)則是通過(guò)已有數(shù)據(jù)理解其變化規(guī)律(因?yàn)闆](méi)有預(yù)測(cè)目標(biāo),所以在數(shù)據(jù)中也沒(méi)有標(biāo)簽),半監(jiān)督學(xué)習(xí)包括從部分標(biāo)記的數(shù)據(jù)(提供目標(biāo)值)和部分未標(biāo)記的數(shù)據(jù)(不提供目標(biāo)值)對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。最后,強(qiáng)化學(xué)習(xí)關(guān)注于對(duì)序貫決策生成算法,使決策者可以與不斷變化的環(huán)境進(jìn)行交互。對(duì)于其他機(jī)器學(xué)習(xí)理論,我們將在本書(shū)后續(xù)章節(jié)中繼續(xù)介紹。
練習(xí)題
1.機(jī)器學(xué)習(xí)和人工智能的區(qū)別有哪些?
2.請(qǐng)列舉兩種監(jiān)督學(xué)習(xí)的預(yù)測(cè)模型。
3.無(wú)監(jiān)督學(xué)習(xí)適用于什么場(chǎng)景?
4.強(qiáng)化學(xué)習(xí)適用于什么場(chǎng)景?
5.半監(jiān)督學(xué)習(xí)適用于什么場(chǎng)景?
6.如何判斷機(jī)器學(xué)習(xí)模型結(jié)果是否存在過(guò)度擬合的情況?
7.請(qǐng)闡述驗(yàn)證集和測(cè)試集的作用。
8.什么是分類(lèi)型數(shù)據(jù)?
9.請(qǐng)列舉五種不同的數(shù)據(jù)清洗方式。
10.“貝葉斯定理可以對(duì)條件概率來(lái)求逆(invert the conditionality)”,如何理解這句話的含義?
作業(yè)題
1.請(qǐng)將三次多項(xiàng)式和四次多項(xiàng)式應(yīng)用于Salary vs.Age數(shù)據(jù)中(第1.3節(jié)的案例),效果如何?請(qǐng)計(jì)算出訓(xùn)練集和測(cè)試集在兩種模型中的誤差的標(biāo)準(zhǔn)差。
2.假設(shè)有25%的郵件為垃圾郵件,且40%的垃圾郵件中包含了一個(gè)特殊詞。在所有郵件中僅有12.5%包含這個(gè)特殊詞。如果一封郵件包含該特殊詞,則該郵件是垃圾郵件的概率是多少?
- 多媒體CAI課件設(shè)計(jì)與制作導(dǎo)論(第二版)
- HTML5移動(dòng)Web開(kāi)發(fā)技術(shù)
- 自己動(dòng)手實(shí)現(xiàn)Lua:虛擬機(jī)、編譯器和標(biāo)準(zhǔn)庫(kù)
- 程序員數(shù)學(xué):用Python學(xué)透線性代數(shù)和微積分
- 精通搜索分析
- 數(shù)據(jù)結(jié)構(gòu)(C語(yǔ)言)
- PHP+MySQL網(wǎng)站開(kāi)發(fā)項(xiàng)目式教程
- 零基礎(chǔ)輕松學(xué)SQL Server 2016
- 時(shí)空數(shù)據(jù)建模及其應(yīng)用
- Mastering Python Design Patterns
- 3ds Max印象 電視欄目包裝動(dòng)畫(huà)與特效制作
- Learning D3.js 5 Mapping(Second Edition)
- INSTANT PLC Programming with RSLogix 5000
- MySQL核心技術(shù)與最佳實(shí)踐
- 計(jì)算機(jī)輔助設(shè)計(jì)與繪圖技術(shù)(AutoCAD 2014教程)(第三版)