- Web安全之機器學(xué)習(xí)入門
- 劉焱
- 261字
- 2019-01-05 10:21:45
機器學(xué)習(xí)的概念非常多,從有監(jiān)督到無監(jiān)督,從聚類到回歸,從淺層學(xué)習(xí)到深度學(xué)習(xí),從準(zhǔn)確率到召回率,它們究竟是什么意思呢?本章將介紹最主要的幾個概念。不少機器學(xué)習(xí)初學(xué)者甚至包括業(yè)內(nèi)老司機,一直被困擾的就是如何找到合適的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),針對數(shù)據(jù)的處理也花費了大量人力物力,究竟如何把身邊各種形態(tài)的實物最終轉(zhuǎn)換成機器可以理解的數(shù)字特征呢?本章將介紹數(shù)據(jù)集的獲取與特征提取方案。本章介紹的數(shù)據(jù)集包括KDD 99、SEA、ADFA-LD等共10類,重點介紹如何針對數(shù)字型和文本型的數(shù)據(jù)進行特征提取以及常見的數(shù)據(jù)讀取方式,最后介紹如何對機器學(xué)習(xí)的結(jié)果進行驗證。
3.1 機器學(xué)習(xí)基本概念
1.有監(jiān)督學(xué)習(xí):對具有概念標(biāo)記(分類)的訓(xùn)練樣本進行學(xué)習(xí),以便盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進行標(biāo)記(分類)預(yù)測。這里,所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的歧義性低。
2.無監(jiān)督學(xué)習(xí):對沒有概念標(biāo)記(分類)的訓(xùn)練樣本進行學(xué)習(xí),以便發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的歧義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)。
3.準(zhǔn)確率與召回率:信息檢索、分類、識別、翻譯等領(lǐng)域中有兩個最基本指標(biāo):召回率(Recall Rate)和準(zhǔn)確率(Precision Rate),召回率也叫查全率,準(zhǔn)確率也叫查準(zhǔn)率。
對一個二分問題來說,會出現(xiàn)四種情況。如果一個實例是實際為真并且也被預(yù)測成真,即為真正類(True positive, TP),如果實際為假被預(yù)測成真,稱之為假正類(False positive,F(xiàn)P)。相應(yīng)地,如果實際為假被預(yù)測成假,稱之為真負(fù)類(True negative, TN),實際為真被預(yù)測成假則為假負(fù)類(false negative, FN)。
召回率和準(zhǔn)確率的關(guān)系如表3-1所示。
表3-1 召回率與準(zhǔn)確率的關(guān)系

召回率=TP/(TP+FN)
準(zhǔn)確率=TP/(TP+FP)
用一個吃貨都可以理解的例子來解釋這兩個枯燥的概念:一個池塘有10條魚和20只小龍蝦,漁夫撒網(wǎng)打魚,結(jié)果撈上來8條魚12只小龍蝦,那么準(zhǔn)確率為8/(8+12)=40%,召回率為8/10=80%。
- RESTful Java Web Services Security
- API安全實戰(zhàn)
- Learning Python for Forensics
- Mastering Kali Linux for Advanced Penetration Testing
- API攻防:Web API安全指南
- 網(wǎng)絡(luò)安全三十六計:人人該懂的防黑客技巧
- 諸神之眼:Nmap網(wǎng)絡(luò)安全審計技術(shù)揭秘
- 模糊測試:強制發(fā)掘安全漏洞的利器
- 計算機網(wǎng)絡(luò)安全基礎(chǔ)(第5版)
- 局域網(wǎng)交換機安全
- 信息內(nèi)容安全管理及應(yīng)用
- 交換機·路由器·防火墻(第2版)
- 黑客攻防與電腦安全從新手到高手(超值版)
- Manga Studio 5 Beginner's Guide
- 社會工程:防范釣魚欺詐(卷3)