官术网_书友最值得收藏!

1.2 機器學習的三種范式

強化學習是機器學習中的一種獨立范式,類似的還有監督學習(Supervised Learning,SL)和無監督學習(Unsupervised Learning, UL)。強化學習超越了其他兩種范式所涉及的范圍(例如,感知、分類、回歸和聚類),而且要做出決策。然而,更重要的是,強化學習其實也利用了監督和無監督學習方法來實現決策。因此,強化學習是與監督學習和無監督學習截然不同但又密切相關的領域,掌握這三種都很重要。

1.2.1 監督學習

監督學習是指學習一個數學函數,該函數盡可能準確地將一組輸入映射到相應的輸出/標記。這個想法是,我們不知道生成輸出的過程的動態,但我們嘗試使用來自它的數據來弄清楚它。考慮以下示例:

? 將自動駕駛汽車攝像頭上的對象分類為行人、停車標志、卡車等的圖像識別模型。

? 使用過去的銷售數據預測特定假日季節產品的客戶需求的預測模型。

很難想出精確的規則來直觀地區分對象,或者是什么因素導致客戶對產品產生需求。因此,監督學習模型從標記數據中推斷出它們。以下是有關其工作原理的一些要點:

? 在訓練期間,模型從主管(可能是人類專家或流程)提供的基本事實標記/輸出中學習。

? 在推理過程中,模型對輸入可能給出的輸出進行預測。

? 模型使用函數近似器(也叫函數逼近器)來表示生成輸出的過程的動態。

1.2.2 無監督學習

無監督學習算法識別數據中以前未知的模式。使用這些模型時,我們可能對預期的結果有所了解,但我們不為模型提供標記。考慮以下示例:

? 識別自動駕駛汽車攝像頭提供的圖像上的同質片段。該模型很可能根據圖像上的紋理將天空、道路、建筑物等分開。

? 根據銷量將每周銷售數據分成三組。輸出可能是分別對應低、中、高銷量的幾周。

如你所知,這與監督學習的工作方式(在以下方面)截然不同:

? 無監督學習模型不知道基本事實是什么,并且沒有輸入要映射到的標記。它們只是識別數據中的不同模式。例如,即使這樣做了,模型也不會意識到它將天空與道路分開,或者將假期周與常規周分開。

? 在推理過程中,模型會將輸入聚集到它已識別的組之一中,但并不知道該組代表什么。

? 函數近似器(如神經網絡)在一些無監督學習算法中使用,但并非所有無監督學習算法都會用到。

重新介紹了監督學習和無監督學習后,我們現在將它們與強化學習進行比較。

1.2.3 強化學習

強化學習是一個框架,用于學習如何在不確定的情況下做出決策,以通過反復實驗來最大化長期利益。這些決策是按順序做出的,較早的決策會影響以后遇到的情況和收益。這將強化學習與監督學習和無監督學習分開,后者不涉及任何決策。讓我們回顧一下之前提供的示例,看看強化學習模型在哪些方面與監督學習和無監督學習模型不同:

? 在自動駕駛汽車場景中,給定汽車攝像頭上所有物體的類型和位置以及道路上車道的邊緣,模型可能會學習如何操縱方向盤以及汽車的速度應該是多少,從而使汽車安全且快速地超過前方的車輛。

? 給定產品的歷史銷售數量以及將庫存從供應商處帶到商店所需的時間,模型可能會了解何時從供應商處訂購以及訂購多少件,從而極有可能滿足季節性客戶需求,同時最大限度地降低庫存和運輸成本。

正如你會注意到的,強化學習試圖完成的任務與監督學習和無監督學習單獨解決的任務具有不同的性質和復雜性。下面我們將詳細說明強化學習的不同之處:

? 強化學習模型的輸出是給定情況的決策,而不是預測或聚類。

? 主管沒有提供真實的決策來告訴模型在不同情況下的理想決策是什么。相反,該模型從自己的經驗和過去做出的決定的反饋中學習最優決策。例如,通過反復實驗,強化學習模型會了解到在超車時超速行駛可能會導致事故,而在假期前訂購過多產品會導致以后庫存過多。

? 強化學習模型經常使用監督學習模型的輸出作為決策的輸入。例如,自動駕駛汽車中圖像識別模型的輸出可用于做出駕駛決策。同樣,預測模型的輸出通常用作強化學習模型的輸入,以做出庫存補貨決策。

? 即使在沒有來自輔助模型的此類輸入的情況下,強化學習模型也可以隱式或顯式地預測其決策將在未來導致什么情況。

? 強化學習使用了許多為監督學習和無監督學習開發的方法,例如作為函數近似器的各種類型的神經網絡。

因此,強化學習與其他機器學習方法的區別在于,它是一個決策框架。然而,強化學習令人興奮和強大的原因是它與我們人類學習如何根據經驗做出決定的相似之處。想象一個蹣跚學步的孩子學習如何用玩具積木建造一座塔。通常,塔越高,蹣跚學步的孩子就越快樂。每一次塔高的增加都是一次成功的嘗試。而每一次倒塌則都是一次失敗的嘗試。他們很快發現,下一個積木越靠近下方積木的中心,塔就越穩定。當放置得太靠近邊緣的積木更容易傾倒時,這一點會得到加強。他們利用練習設法將幾個積木堆疊在一起。他們意識到堆疊早期積木的方式為其創建了一個基礎,該基礎決定了他們可以建造多高的塔。孩子們就是按照這樣的方式來學習的。

當然,蹣跚學步的孩子并不是從一個“藍圖”中學習這些建筑原理的。孩子們是從失敗和成功的嘗試的共同點中吸取了教訓。塔的高度增加或倒塌提供了一個反饋信號,孩子們據此改進了他們的策略。從經驗中學習,而不是借助一個藍圖,是強化學習的核心。就像蹣跚學步的孩子發現哪些積木位置會導致更高的塔一樣,強化學習智能體通過反復實驗確定具有最高長期回報的行動。這就是使強化學習成為如此深刻的人工智能形式的原因。它確實很像人類。

在過去幾年中,有許多令人驚嘆的成功案例證明了強化學習的潛力。此外,還有很多行業即將變革。因此,在深入研究強化學習的技術方面之前,讓我們通過研究強化學習在實踐中可以做些什么來進一步激勵自己。

主站蜘蛛池模板: 天镇县| 花垣县| 探索| 教育| 万源市| 新巴尔虎右旗| 定日县| 沿河| 石城县| 涿州市| 古浪县| 灵璧县| 赫章县| 方城县| 和林格尔县| 嵊泗县| 杂多县| 旌德县| 武隆县| 广平县| 遵义县| 昌平区| 昭平县| 峨眉山市| 娄烦县| 宁河县| 三明市| 丰台区| 三江| 东城区| 兴城市| 龙口市| 内乡县| 灵宝市| 济宁市| 池州市| 平定县| 门源| 库伦旗| 正镶白旗| 香港 |