官术网_书友最值得收藏!

機器學(xué)習(xí)的概念非常多,從有監(jiān)督到無監(jiān)督,從聚類到回歸,從淺層學(xué)習(xí)到深度學(xué)習(xí),從準(zhǔn)確率到召回率,它們究竟是什么意思呢?本章將介紹最主要的幾個概念。不少機器學(xué)習(xí)初學(xué)者甚至包括業(yè)內(nèi)老司機,一直被困擾的就是如何找到合適的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),針對數(shù)據(jù)的處理也花費了大量人力物力,究竟如何把身邊各種形態(tài)的實物最終轉(zhuǎn)換成機器可以理解的數(shù)字特征呢?本章將介紹數(shù)據(jù)集的獲取與特征提取方案。本章介紹的數(shù)據(jù)集包括KDD 99、SEA、ADFA-LD等共10類,重點介紹如何針對數(shù)字型和文本型的數(shù)據(jù)進行特征提取以及常見的數(shù)據(jù)讀取方式,最后介紹如何對機器學(xué)習(xí)的結(jié)果進行驗證。

3.1 機器學(xué)習(xí)基本概念

1.有監(jiān)督學(xué)習(xí):對具有概念標(biāo)記(分類)的訓(xùn)練樣本進行學(xué)習(xí),以便盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進行標(biāo)記(分類)預(yù)測。這里,所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的歧義性低。

2.無監(jiān)督學(xué)習(xí):對沒有概念標(biāo)記(分類)的訓(xùn)練樣本進行學(xué)習(xí),以便發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的歧義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)。

3.準(zhǔn)確率與召回率:信息檢索、分類、識別、翻譯等領(lǐng)域中有兩個最基本指標(biāo):召回率(Recall Rate)和準(zhǔn)確率(Precision Rate),召回率也叫查全率,準(zhǔn)確率也叫查準(zhǔn)率。

對一個二分問題來說,會出現(xiàn)四種情況。如果一個實例是實際為真并且也被預(yù)測成真,即為真正類(True positive, TP),如果實際為假被預(yù)測成真,稱之為假正類(False positive,F(xiàn)P)。相應(yīng)地,如果實際為假被預(yù)測成假,稱之為真負(fù)類(True negative, TN),實際為真被預(yù)測成假則為假負(fù)類(false negative, FN)。

召回率和準(zhǔn)確率的關(guān)系如表3-1所示。

表3-1 召回率與準(zhǔn)確率的關(guān)系

召回率=TP/(TP+FN)

準(zhǔn)確率=TP/(TP+FP)

用一個吃貨都可以理解的例子來解釋這兩個枯燥的概念:一個池塘有10條魚和20只小龍蝦,漁夫撒網(wǎng)打魚,結(jié)果撈上來8條魚12只小龍蝦,那么準(zhǔn)確率為8/(8+12)=40%,召回率為8/10=80%。

主站蜘蛛池模板: 海南省| 长阳| 浦江县| 高邑县| 白玉县| 桃园县| 河间市| 抚州市| 英吉沙县| 武鸣县| 息烽县| 赣榆县| 葫芦岛市| 赣榆县| 陇川县| 梓潼县| 满洲里市| 长寿区| 稻城县| 环江| 敦煌市| 柯坪县| 江北区| 东辽县| 句容市| 高阳县| 固始县| 乌鲁木齐市| 铁岭县| 达尔| 海南省| 兴山县| 浦东新区| 页游| 洞口县| 手机| 汉川市| 大同市| 通化县| 公安县| 岳池县|