官术网_书友最值得收藏!

1.1.2 機(jī)器學(xué)習(xí)的定義

如果從更精細(xì)的角度去描述機(jī)器學(xué)習(xí),那么首先要給出機(jī)器學(xué)習(xí)歷史上兩個(gè)著名的定義。機(jī)器學(xué)習(xí)(machine learning)一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過(guò)程。從字面意義上說(shuō),機(jī)器指計(jì)算機(jī),學(xué)習(xí)是這個(gè)自我改進(jìn)的過(guò)程。最初機(jī)器學(xué)習(xí)這個(gè)名字由Arthur Samuel提出,他給了機(jī)器學(xué)習(xí)一個(gè)非正式的定義。

定義1.1:Arthur Samuel的機(jī)器學(xué)習(xí)定義

機(jī)器學(xué)習(xí)是一個(gè)這樣的領(lǐng)域:計(jì)算機(jī)在程序員并不對(duì)其進(jìn)行顯式編程的情況下進(jìn)行自我學(xué)習(xí)的能力。

具體來(lái)講,機(jī)器學(xué)習(xí)是一門針對(duì)算法與統(tǒng)計(jì)模型的學(xué)科,主要是利用計(jì)算機(jī)系統(tǒng)高效地執(zhí)行特殊任務(wù),該任務(wù)沒(méi)有顯式的指令,而是依靠模型和推斷等。機(jī)器學(xué)習(xí)算法會(huì)建立一個(gè)關(guān)于樣本數(shù)據(jù)的數(shù)學(xué)模型,這些樣本數(shù)據(jù)通常被稱為“訓(xùn)練集”(training data)。這樣做的目的是在執(zhí)行任務(wù)時(shí)不去進(jìn)行顯式的預(yù)測(cè)或決策,這同時(shí)也表明了機(jī)器學(xué)習(xí)不是一個(gè)已確定好的規(guī)則和流程。機(jī)器學(xué)習(xí)算法可以被用于郵件過(guò)濾、網(wǎng)絡(luò)入侵檢測(cè)以及計(jì)算機(jī)視覺(jué)等。機(jī)器學(xué)習(xí)與利用計(jì)算機(jī)進(jìn)行預(yù)測(cè)的計(jì)算數(shù)學(xué)比較接近。

上面的定義稍有一些佶屈聱牙,但大體上是說(shuō):“機(jī)器是怎么判斷的”這一點(diǎn)不是由人顯式定義的,而是計(jì)算機(jī)自己獲得的。這里有一個(gè)更加工程化的定義,即Tom M.Mitchell為機(jī)器學(xué)習(xí)領(lǐng)域研究的算法特征提出的一個(gè)廣為引用且更加正式的定義。

定義1.2:Tom M.Mitchell的機(jī)器學(xué)習(xí)定義

機(jī)器學(xué)習(xí)這門學(xué)科所關(guān)注的問(wèn)題是:計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高性能;如果針對(duì)某類任務(wù)T,一個(gè)計(jì)算機(jī)程序的用P 衡量的性能可根據(jù)經(jīng)驗(yàn)E 來(lái)自我完善,那么我們稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E中學(xué)習(xí),針對(duì)某類任務(wù)T,它的性能可用P 來(lái)衡量。

《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)》[16]一書(shū)中寫道:許多領(lǐng)域都產(chǎn)生了大量的數(shù)據(jù),統(tǒng)計(jì)學(xué)家的工作就是讓所有這些數(shù)據(jù)變得有意義——提取重要的模式和趨勢(shì),理解“數(shù)據(jù)在說(shuō)什么”。我們稱之為從數(shù)據(jù)中學(xué)習(xí)。綜上所述,機(jī)器學(xué)習(xí)模仿人類學(xué)習(xí)的過(guò)程,不能對(duì)機(jī)器置入顯式的判斷規(guī)則,而是由機(jī)器在某種任務(wù)場(chǎng)景(基于某種經(jīng)驗(yàn))和某種評(píng)判標(biāo)準(zhǔn)下不斷提升自己表現(xiàn)的過(guò)程。

舉個(gè)例子,當(dāng)你使用電子郵箱時(shí),你的垃圾郵件過(guò)濾系統(tǒng)可以預(yù)先從帶有人為標(biāo)記的垃圾郵件以及帶有人為標(biāo)記的正常郵件中學(xué)習(xí)到垃圾郵件到底會(huì)有怎樣的特征表現(xiàn)。這些用以訓(xùn)練系統(tǒng)的數(shù)據(jù)集被稱為訓(xùn)練集,其中每一個(gè)樣本被稱作訓(xùn)練樣本。在這個(gè)案例中,任務(wù)T是對(duì)新來(lái)的郵件打上好或者不好的標(biāo)簽;經(jīng)驗(yàn)E是上述訓(xùn)練集;而性能P 需要被定義,例如你可以用預(yù)測(cè)的正確比例去定義模型表現(xiàn)的好壞,該指標(biāo)被稱作準(zhǔn)確率(accuracy)且廣泛應(yīng)用于機(jī)器學(xué)習(xí)的分類任務(wù)中。

主站蜘蛛池模板: 出国| 石泉县| 彰化县| 溆浦县| 文成县| 象山县| 农安县| 钦州市| 高阳县| 黄骅市| 黎城县| 萨嘎县| 陈巴尔虎旗| 克拉玛依市| 香格里拉县| 肥西县| 怀集县| 阳高县| 全南县| 蓬安县| 波密县| 靖州| 泾源县| 泾阳县| 高平市| 台南市| 子洲县| 阳城县| 隆安县| 庆安县| 洪雅县| 怀宁县| 三门峡市| 万源市| 伊吾县| 鹿泉市| 长乐市| 大丰市| 洛川县| 綦江县| 和林格尔县|