官术网_书友最值得收藏!

1.1 機(jī)器學(xué)習(xí)中的強(qiáng)化學(xué)習(xí)

當(dāng)我們思考學(xué)習(xí)的本質(zhì)時(shí)[1],我們可能首先想到通過(guò)與環(huán)境的互動(dòng)來(lái)學(xué)習(xí)。學(xué)習(xí)是在一些已知的事實(shí)和對(duì)環(huán)境的一些認(rèn)識(shí)的基礎(chǔ)上推斷某些未知事實(shí)的活動(dòng)。如果學(xué)習(xí)的主體是人,那就稱為人類的學(xué)習(xí)。除了人類,動(dòng)物也會(huì)學(xué)習(xí),與之對(duì)應(yīng)的稱為動(dòng)物學(xué)習(xí)。同樣地,除了這些生物,計(jì)算機(jī)中的程序也可以學(xué)習(xí),被稱為機(jī)器學(xué)習(xí)。

機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)交叉的自然產(chǎn)物[2]。然而,它們有不同的目標(biāo):計(jì)算機(jī)科學(xué)強(qiáng)調(diào)如何手動(dòng)編寫計(jì)算機(jī)程序;機(jī)器學(xué)習(xí)強(qiáng)調(diào)如何讓計(jì)算機(jī)自己編程,它關(guān)注于預(yù)測(cè)未來(lái);統(tǒng)計(jì)學(xué)強(qiáng)調(diào)從數(shù)據(jù)中可以推斷出什么結(jié)論,它側(cè)重于了解過(guò)去。根據(jù)定義,機(jī)器學(xué)習(xí)試圖回答這個(gè)問(wèn)題:我們?nèi)绾尾拍芙⒁粋€(gè)隨著經(jīng)驗(yàn)的增加而自動(dòng)改進(jìn)的計(jì)算機(jī)系統(tǒng)?什么是支配所有學(xué)習(xí)過(guò)程的基本法則[2]?更準(zhǔn)確地說(shuō),機(jī)器學(xué)習(xí)是通過(guò)編程讓計(jì)算機(jī)使用采樣數(shù)據(jù)或過(guò)去的經(jīng)驗(yàn)來(lái)優(yōu)化性能標(biāo)準(zhǔn)。

機(jī)器學(xué)習(xí)中有三種主要的學(xué)習(xí)類型[3]

(1)監(jiān)督學(xué)習(xí):目標(biāo)是從給定訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到從輸入到輸出映射。在監(jiān)督學(xué)習(xí)中使用的訓(xùn)練數(shù)據(jù)是標(biāo)記數(shù)據(jù),例如,

{(x1, y1),(x2, y2),…(xn,yn)}

是輸入數(shù)據(jù),是監(jiān)督者給定的標(biāo)簽,n是訓(xùn)練樣本量。在原則上輸出可以是任何形式,但是大多數(shù)方法假定 yi是來(lái)自有限集 y i∈{1,2,…,}C的表示分類類別的離散型變量或者實(shí)值標(biāo)量。當(dāng) yi是分類數(shù)值時(shí),這個(gè)問(wèn)題就是分類問(wèn)題。當(dāng) yi是實(shí)值時(shí),問(wèn)題就被稱為回歸[4]。監(jiān)督學(xué)習(xí)在人臉檢測(cè)和垃圾郵件過(guò)濾等多種應(yīng)用中發(fā)揮著重要作用。

(2)無(wú)監(jiān)督學(xué)習(xí):目的是找到數(shù)據(jù)中隱藏的結(jié)構(gòu)。訓(xùn)練數(shù)據(jù)以未標(biāo)記數(shù)據(jù)的形式給出,例如,

{x1, x2,…, xn}

在無(wú)監(jiān)督學(xué)習(xí)中,沒(méi)有監(jiān)督者,只有輸入數(shù)據(jù)。此類問(wèn)題也被稱為知識(shí)發(fā)現(xiàn)。無(wú)監(jiān)督學(xué)習(xí)與密度估計(jì)問(wèn)題密切相關(guān),就是說(shuō),我們想建立形式為 px)的模型[3]。非監(jiān)督學(xué)習(xí)的重要例子是聚類和降維[4]

(3)強(qiáng)化學(xué)習(xí):它關(guān)注的是智能體應(yīng)該如何在未知環(huán)境中采取行動(dòng),從而實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大化[5]。智能體不能事先知道要采取哪些行動(dòng),而是必須發(fā)現(xiàn)哪些行動(dòng)能帶來(lái)最大的累積獎(jiǎng)勵(lì)。對(duì)于智能體來(lái)說(shuō),獎(jiǎng)勵(lì)衡量什么是好的和壞的行動(dòng)。強(qiáng)化學(xué)習(xí)已經(jīng)成功地應(yīng)用于各種問(wèn)題,包括機(jī)器人控制、電梯調(diào)度、電信和經(jīng)濟(jì)[6]

強(qiáng)化學(xué)習(xí)可以通過(guò)將問(wèn)題與機(jī)器學(xué)習(xí)的其他研究領(lǐng)域進(jìn)行對(duì)比來(lái)理解,強(qiáng)化學(xué)習(xí)大致被認(rèn)為是介于監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)之間的一種學(xué)習(xí)類型。在監(jiān)督學(xué)習(xí)中,監(jiān)督者在訓(xùn)練樣本中提供正確的答案;在強(qiáng)化學(xué)習(xí)中,學(xué)習(xí)者不能像在監(jiān)督學(xué)習(xí)中那樣有明確的標(biāo)準(zhǔn),但它確實(shí)有一個(gè)獎(jiǎng)勵(lì)信號(hào),它直接連接到它的環(huán)境;在無(wú)監(jiān)督學(xué)習(xí)中,給學(xué)習(xí)者的例子是無(wú)標(biāo)記的,沒(méi)有正確、錯(cuò)誤或獎(jiǎng)勵(lì)信號(hào)來(lái)評(píng)估一個(gè)潛在的解決方案。獎(jiǎng)勵(lì)函數(shù)將強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)區(qū)分開(kāi)來(lái)。

此外,強(qiáng)化學(xué)習(xí)本質(zhì)上不同于監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)解決的問(wèn)題沒(méi)有交互式的成分。監(jiān)督學(xué)習(xí)依賴于訓(xùn)練和測(cè)試樣本作為獨(dú)立同分布的隨機(jī)變量。這些方法是建立在每個(gè)決定對(duì)未來(lái)的例子沒(méi)有影響的假設(shè)下。另在監(jiān)督學(xué)習(xí)場(chǎng)景中,正確的答案是在訓(xùn)練階段提供給學(xué)習(xí)者的,所以沒(méi)有含糊的行動(dòng)選擇。另一方面,強(qiáng)化學(xué)習(xí)中的智能體并沒(méi)有被告知要采取的具體行動(dòng),相反,智能體通過(guò)交互學(xué)習(xí)發(fā)現(xiàn)其能獲得最大回報(bào)的行動(dòng)。由于狀態(tài)的轉(zhuǎn)變及行為的采取不僅會(huì)影響當(dāng)前的獎(jiǎng)勵(lì),還會(huì)影響下一個(gè)情境,因此所有后續(xù)的獎(jiǎng)勵(lì)都會(huì)影響到未來(lái),智能體與環(huán)境之間的交互數(shù)據(jù)并非是獨(dú)立同分布的。

機(jī)器學(xué)習(xí)和人工智能早就有著密切的聯(lián)系[2],特別是人工智能與強(qiáng)化學(xué)習(xí)之間有更多的聯(lián)系[5]。在人工智能中,智能體的關(guān)鍵問(wèn)題是感知、搜索、計(jì)劃、學(xué)習(xí)、行動(dòng)和交流[7]。機(jī)器學(xué)習(xí)包括很多先進(jìn)的數(shù)據(jù)分析方法,因此,它比人工智能中的特定學(xué)習(xí)更為普遍。如今,機(jī)器學(xué)習(xí)被認(rèn)為是一個(gè)獨(dú)立的研究領(lǐng)域,而不是單純的人工智能的一個(gè)分支,人工智能中的學(xué)習(xí)更多指的是強(qiáng)化學(xué)習(xí)。另一方面,強(qiáng)化學(xué)習(xí)與最優(yōu)控制有著密切的聯(lián)系[8]。強(qiáng)化學(xué)習(xí)和最優(yōu)控制皆在解決尋找最優(yōu)策略的問(wèn)題來(lái)優(yōu)化一個(gè)目標(biāo)函數(shù),如累積獎(jiǎng)勵(lì)。然而,最優(yōu)控制以模型的形式假定對(duì)環(huán)境有完全的了解[9]。強(qiáng)化學(xué)習(xí)通過(guò)擴(kuò)展最優(yōu)控制和函數(shù)估計(jì)的思想來(lái)解決更廣泛和更雄心勃勃的目標(biāo),這也被稱為自適應(yīng)最優(yōu)控制[10]

強(qiáng)化學(xué)習(xí)描述的是智能體為實(shí)現(xiàn)任務(wù)而連續(xù)做出決策控制的過(guò)程,它不需要像監(jiān)督學(xué)習(xí)那樣給定先驗(yàn)知識(shí),也無(wú)須專家給定準(zhǔn)確參考標(biāo)準(zhǔn),而是通過(guò)與環(huán)境交互來(lái)獲得知識(shí),自主地進(jìn)行動(dòng)作選擇,最終找到一個(gè)當(dāng)前狀態(tài)下最優(yōu)的動(dòng)作選擇策略(Policy),獲得整個(gè)決策過(guò)程的最大累積獎(jiǎng)勵(lì)(Reward) (如圖1-1所示)[5]。為了實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的目標(biāo),要求智能體能夠?qū)χ車h(huán)境有所認(rèn)知,理解當(dāng)前所處狀態(tài),根據(jù)任務(wù)要求做出符合環(huán)境情境的決策動(dòng)作。

圖1-1 強(qiáng)化學(xué)習(xí)基本框架

從根本上說(shuō),智能體和環(huán)境構(gòu)成了強(qiáng)化學(xué)習(xí)系統(tǒng)。更具體地說(shuō),強(qiáng)化學(xué)習(xí)系統(tǒng)有四個(gè)主要元素:策略、獎(jiǎng)勵(lì)函數(shù)、回報(bào)(或值函數(shù)),以及環(huán)境模型[6]。策略定義了智能體在給定時(shí)間內(nèi)的行為方式,是強(qiáng)化學(xué)習(xí)智能體的核心。獎(jiǎng)勵(lì)函數(shù)定義了問(wèn)題的目標(biāo),它將每個(gè)感知到的環(huán)境狀態(tài)映射到一個(gè)具體的獎(jiǎng)勵(lì)數(shù)值。獎(jiǎng)勵(lì)函數(shù)指明瞬時(shí)動(dòng)作的好壞,而回報(bào)函數(shù)(或值函數(shù))則指明長(zhǎng)遠(yuǎn)角度上策略的好壞。回報(bào)函數(shù)(或值函數(shù))代表了作為一種狀態(tài)或一種狀態(tài)-動(dòng)作對(duì)的未來(lái)期望累積獎(jiǎng)勵(lì)。回報(bào)是沿軌跡累積的獎(jiǎng)勵(lì)期望。智能體的目標(biāo)是找到一個(gè)能使回報(bào)或值函數(shù)最大化的策略。強(qiáng)化學(xué)習(xí)系統(tǒng)的最后一個(gè)元素是環(huán)境模型,它描述了智能體通過(guò)當(dāng)前的狀態(tài)和動(dòng)作來(lái)給出下一個(gè)狀態(tài),它被用來(lái)模仿環(huán)境行為。環(huán)境模型是可選的,基于此,強(qiáng)化學(xué)習(xí)可分為基于模型的強(qiáng)化學(xué)習(xí)方法和無(wú)模型的強(qiáng)化學(xué)習(xí)方法[11]。首先基于模型的強(qiáng)化學(xué)習(xí)方法明確地指出要對(duì)環(huán)境建模,然后基于環(huán)境模型學(xué)習(xí)策略。另一方面,無(wú)模型的強(qiáng)化學(xué)習(xí)方法是在不指明環(huán)境模型的情況下學(xué)習(xí)策略,根據(jù)與環(huán)境交互獲得的樣本直接學(xué)習(xí)策略。

主站蜘蛛池模板: 永福县| 新乡市| 格尔木市| 武乡县| 县级市| 瑞安市| 邮箱| 本溪| 旺苍县| 翁牛特旗| 菏泽市| 新化县| 阜城县| 吉水县| 广宁县| 阿克陶县| 肃宁县| 灵寿县| 维西| 兴化市| 汤阴县| 武隆县| 若羌县| 凤阳县| 浦城县| 丰都县| 雅安市| 娄烦县| 甘谷县| 景洪市| 沧源| 黑河市| 新余市| 扶绥县| 扬中市| 喜德县| 开阳县| 博湖县| 固始县| 灵武市| 温泉县|