- Python強(qiáng)化學(xué)習(xí):算法、核心技術(shù)與行業(yè)應(yīng)用
- (美)埃內(nèi)斯·比爾金
- 3572字
- 2024-04-15 11:57:26
1.3 強(qiáng)化學(xué)習(xí)應(yīng)用領(lǐng)域和成功案例
強(qiáng)化學(xué)習(xí)并不是一個(gè)新領(lǐng)域。在過(guò)去的70年里,強(qiáng)化學(xué)習(xí)中的許多基本思想其實(shí)是來(lái)自動(dòng)態(tài)規(guī)劃和最優(yōu)控制領(lǐng)域。然而,由于深度學(xué)習(xí)的突破和更強(qiáng)大的計(jì)算資源,強(qiáng)化學(xué)習(xí)近期的落地隨之取得了重大進(jìn)展。在本節(jié)中,我們將討論強(qiáng)化學(xué)習(xí)的一些應(yīng)用領(lǐng)域以及一些著名的成功案例。在接下來(lái)的章節(jié)中,我們將深入探討這些實(shí)現(xiàn)背后的算法。
1.3.1 游戲
棋盤(pán)和視頻游戲一直是強(qiáng)化學(xué)習(xí)的研究實(shí)驗(yàn)室,在該領(lǐng)域產(chǎn)生了許多著名的成功案例。游戲產(chǎn)生好的強(qiáng)化學(xué)習(xí)問(wèn)題的原因如下:
? 游戲本質(zhì)上是涉及不確定性的序貫決策。
? 它們可作為計(jì)算機(jī)軟件使用,使強(qiáng)化學(xué)習(xí)模型可以靈活地與它們交互并生成數(shù)十億個(gè)數(shù)據(jù)點(diǎn)用于訓(xùn)練。此外,經(jīng)過(guò)訓(xùn)練的強(qiáng)化學(xué)習(xí)模型也會(huì)在相同的計(jì)算機(jī)環(huán)境中進(jìn)行測(cè)試。這與許多物理過(guò)程相反,因?yàn)樗鼈兲珡?fù)雜而無(wú)法創(chuàng)建準(zhǔn)確而快速的模擬器。
? 游戲中的自然基準(zhǔn)是最好的人類玩家,這使其成為人工智能與人類進(jìn)行比較的富有吸引力的戰(zhàn)場(chǎng)。
下面讓我們來(lái)看看最令人興奮的一些強(qiáng)化學(xué)習(xí)工作,這些工作已經(jīng)登上了頭條。
1.3.1.1 TD-Gammon
第一個(gè)著名的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)是TD-Gammon,這是一個(gè)學(xué)習(xí)如何玩雙陸棋并且旨在超過(guò)人類水平的模型,其中,雙陸棋是一種具有1020種可能配置的兩人棋盤(pán)游戲。該模型是由IBM研究院的Gerald Tesauro于1992年開(kāi)發(fā)的。TD-Gammon非常成功,以至于它教給人類的新穎策略在當(dāng)時(shí)的雙陸棋社區(qū)引起了極大的興奮。該模型中使用的許多方法(例如,時(shí)間差分、自我對(duì)局和神經(jīng)網(wǎng)絡(luò))仍然是現(xiàn)代強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的核心。
1.3.1.2 雅達(dá)利游戲中的“超過(guò)人類水平”表現(xiàn)
2015年,谷歌DeepMind的Volodymry Mnih及其同事發(fā)表了強(qiáng)化學(xué)習(xí)中最令人印象深刻和最具開(kāi)創(chuàng)性的作品之一。研究人員訓(xùn)練了強(qiáng)化學(xué)習(xí)智能體,僅使用計(jì)算機(jī)屏幕顯示輸入和游戲分?jǐn)?shù),而沒(méi)有使用任何通過(guò)深度神經(jīng)網(wǎng)絡(luò)人為手動(dòng)設(shè)計(jì)或游戲特定的特征,就讓智能體學(xué)會(huì)了如何比人類更好地玩雅達(dá)利(Atari)游戲。他們將該算法命名為Deep Q-Network(DQN),這是當(dāng)今最流行的強(qiáng)化學(xué)習(xí)算法之一。
1.3.1.3 擊敗圍棋、國(guó)際象棋和將棋的世界冠軍
使強(qiáng)化學(xué)習(xí)名聲大振的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)可能是谷歌DeepMind的AlphaGo。這是2015年第一個(gè)在圍棋這一古老棋盤(pán)游戲中擊敗職業(yè)棋手的計(jì)算機(jī)程序,后來(lái)又在2016年擊敗了世界冠軍李世石。這個(gè)故事后來(lái)被改編成同名紀(jì)錄片。AlphaGo模型使用來(lái)自人類專家落子的數(shù)據(jù)以及通過(guò)自我對(duì)局的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。后來(lái)的版本AlphaGo Zero以100比0擊敗最初的AlphaGo,該版本僅通過(guò)自我對(duì)局進(jìn)行訓(xùn)練,并且沒(méi)有將任何人類知識(shí)插入模型中。最后,該公司在2018年發(fā)布了AlphaZero,它能夠?qū)W習(xí)國(guó)際象棋、將棋(日本國(guó)際象棋)和圍棋,成為歷史上最強(qiáng)的棋手,并且除了游戲規(guī)則外,其沒(méi)有任何關(guān)于游戲的先驗(yàn)信息。AlphaZero僅在張量處理單元(Tensor Processing Unit, TPU)上進(jìn)行了幾小時(shí)的訓(xùn)練就達(dá)到了這一性能。AlphaZero的非傳統(tǒng)策略得到了世界著名棋手[例如Garry Kasparov(國(guó)際象棋)和Yoshiharu Habu(將棋)]的贊譽(yù)。
1.3.1.4 復(fù)雜策略游戲的勝利
強(qiáng)化學(xué)習(xí)的成功后來(lái)跳出了雅達(dá)利和棋盤(pán)游戲,進(jìn)入了《馬里奧》、《雷神之錘Ⅲ:競(jìng)技場(chǎng)》、《奪旗》、Dota 2和《星際爭(zhēng)霸Ⅱ》。其中一些游戲在戰(zhàn)略規(guī)劃、多個(gè)決策者之間的博弈論、不完善的信息以及大量可能的行動(dòng)和游戲狀態(tài)等方面的要求對(duì)人工智能程序來(lái)說(shuō)極具挑戰(zhàn)。由于這種復(fù)雜性,訓(xùn)練這些模型需要大量資源。例如,OpenAI使用256個(gè)GPU和128000個(gè)CPU內(nèi)核訓(xùn)練Dota 2模型數(shù)月,每天為模型提供900年的游戲經(jīng)驗(yàn)。在2019年擊敗了《星際爭(zhēng)霸Ⅱ》頂級(jí)職業(yè)玩家的谷歌DeepMind的AlphaStar,需要訓(xùn)練數(shù)百個(gè)具有200年實(shí)時(shí)游戲經(jīng)驗(yàn)的復(fù)雜模型副本,盡管這些模型最初是根據(jù)人類玩家的真實(shí)游戲數(shù)據(jù)進(jìn)行訓(xùn)練的。
1.3.2 機(jī)器人技術(shù)和自主系統(tǒng)
機(jī)器人和物理自主系統(tǒng)對(duì)強(qiáng)化學(xué)習(xí)來(lái)說(shuō)是具有挑戰(zhàn)性的領(lǐng)域。這是因?yàn)閺?qiáng)化學(xué)習(xí)智能體是通過(guò)模擬訓(xùn)練來(lái)收集足夠的數(shù)據(jù),但模擬環(huán)境無(wú)法反映現(xiàn)實(shí)世界的所有復(fù)雜性。因此,如果任務(wù)對(duì)安全至關(guān)重要,那么這些智能體在實(shí)際任務(wù)中經(jīng)常失敗就尤其成問(wèn)題。此外,這些應(yīng)用程序通常涉及連續(xù)行動(dòng),這需要不同于DQN的算法。盡管存在這些挑戰(zhàn),但在這些領(lǐng)域仍有許多強(qiáng)化學(xué)習(xí)成功案例。此外,還有很多關(guān)于在自主地面和空中交通工具等令人興奮的應(yīng)用中使用強(qiáng)化學(xué)習(xí)的研究。
1.3.2.1 電梯優(yōu)化
一個(gè)早期的成功案例證明了強(qiáng)化學(xué)習(xí)可以為現(xiàn)實(shí)世界的應(yīng)用創(chuàng)造價(jià)值,這便是Robert Crites和Andrew Barto在1996年提出的電梯優(yōu)化。研究人員開(kāi)發(fā)了一個(gè)強(qiáng)化學(xué)習(xí)模型,以優(yōu)化一棟10層建筑中的電梯調(diào)度,該建筑有4部電梯。考慮到模型可能遇到的情況數(shù)量、部分可觀測(cè)性(例如,強(qiáng)化學(xué)習(xí)模型無(wú)法觀測(cè)到在不同樓層等候的人數(shù))以及可供選擇的決策數(shù)量,這是一個(gè)比早期的TD-Gammon更具挑戰(zhàn)性的問(wèn)題。強(qiáng)化學(xué)習(xí)模型顯著提高了跨各種指標(biāo)的最優(yōu)電梯控制啟發(fā)式時(shí)間,例如,平均乘客等待時(shí)間和旅行時(shí)間。
1.3.2.2 人形機(jī)器人和靈巧操作
2017年,谷歌DeepMind的Nicolas Heess等人能夠在計(jì)算機(jī)模擬中教授不同類型的身體(例如,類人機(jī)器等)各種運(yùn)動(dòng)行為,例如,如何跑步、跳躍等。2018年,OpenAI的Marcin Andrychowicz等人訓(xùn)練了一只五指人形手來(lái)操作一個(gè)從初始配置到目標(biāo)配置的塊。2019年,OpenAI的研究員Ilge Akkaya等人再次通過(guò)訓(xùn)練機(jī)器人手來(lái)解決魔方問(wèn)題如圖1-1所示。后兩個(gè)模型都在模擬環(huán)境中進(jìn)行了訓(xùn)練,并使用域隨機(jī)化技術(shù)成功地轉(zhuǎn)移到了物理實(shí)現(xiàn)中(如圖1-1所示)。

圖1-1 OpenAI用于解決魔方問(wèn)題的強(qiáng)化學(xué)習(xí)模型在模擬中進(jìn)行訓(xùn)練并部署在物理機(jī)器人上(OpenAI Blog,2019)
1.3.2.3 應(yīng)急響應(yīng)機(jī)器人
在災(zāi)難發(fā)生后,使用機(jī)器人可能會(huì)非常有幫助,尤其是在危險(xiǎn)條件下操作時(shí)。例如,機(jī)器人可以在受損結(jié)構(gòu)中定位幸存者、關(guān)閉氣閥等。創(chuàng)建自主操作的智能機(jī)器人將允許擴(kuò)展應(yīng)急響應(yīng)操作,并為更多可能進(jìn)行手動(dòng)操作的人提供必要的支持。
1.3.2.4 自動(dòng)駕駛汽車
雖然完全自動(dòng)駕駛的汽車過(guò)于復(fù)雜,無(wú)法單獨(dú)使用強(qiáng)化學(xué)習(xí)模型來(lái)解決,但其中一些任務(wù)可以由強(qiáng)化學(xué)習(xí)處理。例如,我們可以訓(xùn)練強(qiáng)化學(xué)習(xí)智能體進(jìn)行自動(dòng)停車,并決定何時(shí)以及如何在高速公路上超車。同樣,我們可以使用強(qiáng)化學(xué)習(xí)智能體在自主無(wú)人機(jī)中執(zhí)行某些任務(wù),例如,如何起飛、降落、避開(kāi)碰撞等。
1.3.3 供應(yīng)鏈
供應(yīng)鏈中的許多決策具有序貫性并且涉及不確定性,強(qiáng)化學(xué)習(xí)是一種自然的方法。其中一些問(wèn)題如下:
? 庫(kù)存計(jì)劃是關(guān)于何時(shí)下采購(gòu)訂單來(lái)補(bǔ)充產(chǎn)品的庫(kù)存以及數(shù)量的決定。訂購(gòu)量不足會(huì)導(dǎo)致短缺,訂購(gòu)量過(guò)多會(huì)導(dǎo)致庫(kù)存成本過(guò)高、產(chǎn)品變質(zhì)和以低價(jià)清除庫(kù)存。強(qiáng)化學(xué)習(xí)模型用于制定庫(kù)存計(jì)劃決策,以降低這些操作的成本。
? 裝箱是制造和供應(yīng)鏈中的一個(gè)常見(jiàn)問(wèn)題,其中到達(dá)站點(diǎn)的物品被放入容器中,以最大限度地減少使用的容器數(shù)量并確保設(shè)施的平穩(wěn)運(yùn)行。這是一個(gè)可以使用強(qiáng)化學(xué)習(xí)解決的難題。
1.3.4 制造業(yè)
強(qiáng)化學(xué)習(xí)將產(chǎn)生巨大影響的一個(gè)領(lǐng)域是制造業(yè),其中很多人工任務(wù)可以由自主智能體以更低的成本和更高的質(zhì)量執(zhí)行。因此,許多公司正在考慮將強(qiáng)化學(xué)習(xí)引入他們的制造環(huán)境。以下是制造業(yè)中強(qiáng)化學(xué)習(xí)應(yīng)用的一些示例:
? 機(jī)器校準(zhǔn)是制造環(huán)境中通常由人類專家處理的任務(wù),效率低且容易出錯(cuò)。強(qiáng)化學(xué)習(xí)模型通常能夠以更低的成本和更高的質(zhì)量完成這些任務(wù)。
? 化工廠運(yùn)營(yíng)通常涉及序貫決策,這通常由人類專家或啟發(fā)式方法處理。強(qiáng)化學(xué)習(xí)智能體已被證明可以有效控制這些過(guò)程,最終產(chǎn)品質(zhì)量更好,設(shè)備磨損更少。
? 設(shè)備維護(hù)需要計(jì)劃停機(jī)時(shí)間以避免代價(jià)高昂的故障。強(qiáng)化學(xué)習(xí)模型可以有效地平衡停機(jī)成本和潛在故障成本。
? 除了這些例子之外,機(jī)器人中的許多成功強(qiáng)化學(xué)習(xí)應(yīng)用可以轉(zhuǎn)移到制造業(yè)解決方案。
1.3.5 個(gè)性化和推薦系統(tǒng)
個(gè)性化可以說(shuō)是迄今為止強(qiáng)化學(xué)習(xí)創(chuàng)造最大商業(yè)價(jià)值的領(lǐng)域。大型科技公司通過(guò)在后臺(tái)運(yùn)行強(qiáng)化學(xué)習(xí)算法提供個(gè)性化服務(wù)。以下是一些示例:
? 在廣告中,向(潛在)客戶提供的促銷材料的順序和內(nèi)容是一個(gè)序貫決策問(wèn)題,可以使用強(qiáng)化學(xué)習(xí)解決,從而提高客戶滿意度和轉(zhuǎn)化率。
? 新聞推薦是Microsoft News應(yīng)用強(qiáng)化學(xué)習(xí)并通過(guò)改進(jìn)文章選擇和推薦順序來(lái)提高訪問(wèn)者參與度的典型領(lǐng)域。
? 你在Netflix上看到標(biāo)題的藝術(shù)作品的個(gè)性化由強(qiáng)化學(xué)習(xí)算法處理。這樣,觀眾可以更好地識(shí)別與他們的興趣相關(guān)的標(biāo)題。
? 個(gè)性化醫(yī)療保健正在變得越來(lái)越重要,因?yàn)樗愿偷某杀咎峁└行У闹委煛F渲袕?qiáng)化學(xué)習(xí)的許多成功應(yīng)用是為患者選擇正確的治療方法。
1.3.6 智慧城市
在許多領(lǐng)域,強(qiáng)化學(xué)習(xí)可以幫助改善城市運(yùn)營(yíng)方式。以下是幾個(gè)例子:
? 在有多個(gè)十字路口的交通網(wǎng)絡(luò)中,交通信號(hào)燈應(yīng)協(xié)調(diào)工作,以確保交通暢通。事實(shí)證明,這個(gè)問(wèn)題可以建模為多智能體強(qiáng)化學(xué)習(xí)問(wèn)題,并改進(jìn)現(xiàn)有的交通燈控制系統(tǒng)。
? 實(shí)時(shí)平衡電網(wǎng)的發(fā)電和需求是確保電網(wǎng)安全的重要問(wèn)題。實(shí)現(xiàn)這一目標(biāo)的一種方法是在不犧牲服務(wù)質(zhì)量的情況下控制需求,例如,在有足夠發(fā)電量的情況下為電動(dòng)汽車充電和打開(kāi)空調(diào)系統(tǒng),強(qiáng)化學(xué)習(xí)方法已成功應(yīng)用于此。
類似的示例還有很多,但這些已足以表明強(qiáng)化學(xué)習(xí)的巨大潛力。該領(lǐng)域的早期研究者吳恩達(dá)(Andrew Ng)對(duì)人工智能的看法同樣適用于強(qiáng)化學(xué)習(xí):
就像100年前電力幾乎改變了一切一樣,今天我真的很難想到一個(gè)我認(rèn)為未來(lái)幾年人工智能不會(huì)改變的行業(yè)。(吳恩達(dá):Why AI is the new electricity,Stanford News,2017年3月15日)
強(qiáng)化學(xué)習(xí)的發(fā)展現(xiàn)在才剛開(kāi)始,我們正通過(guò)努力了解強(qiáng)化學(xué)習(xí)是什么以及它必須提供什么來(lái)進(jìn)行一項(xiàng)偉大的投入。現(xiàn)在,是時(shí)候獲得更多技術(shù)并形式化定義強(qiáng)化學(xué)習(xí)問(wèn)題中的元素了。
- 機(jī)器學(xué)習(xí)的算法分析和實(shí)踐
- 生成式AI:人工智能的未來(lái)
- 機(jī)器學(xué)習(xí)
- 深度學(xué)習(xí)必學(xué)的十個(gè)問(wèn)題:理論與實(shí)踐
- 機(jī)器學(xué)習(xí)中的概率思維
- 這就是ChatGPT
- 人工智能算法(卷3):深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)
- 大語(yǔ)言模型:基礎(chǔ)與前沿
- 機(jī)器人驅(qū)動(dòng)與控制及應(yīng)用實(shí)例
- 人工智能數(shù)據(jù)處理
- 人工智能數(shù)學(xué)基礎(chǔ)
- Python機(jī)器學(xué)習(xí)入門與實(shí)戰(zhàn)
- 精通AI虛擬數(shù)字人制作與應(yīng)用:直播主播+視頻博主+營(yíng)銷推廣+教育培訓(xùn)
- 生成:AI生產(chǎn)力重構(gòu)營(yíng)銷新范式
- 虛擬人:人類新物種(2021版)