不朽情缘歌曲1叫什么

書(shū)名：大模型應(yīng)用開(kāi)發(fā)：動(dòng)手做AI Agent
作者名：黃佳
本章字?jǐn)?shù)： 1308字
更新時(shí)間： 2024-09-05 17:11:38

1.3.2　大模型出現(xiàn)之前的Agent

在深度神經(jīng)網(wǎng)絡(luò)和大模型出現(xiàn)之前，沒(méi)有任何一種技術(shù)能夠賦予Agent一個(gè)復(fù)雜程度可以與人類(lèi)大腦相匹敵的“智腦”。而大模型直接改變了人們對(duì)Agent的看法和期待。這些大模型不僅僅是語(yǔ)言處理工具，它們也是對(duì)人類(lèi)智能的一種深層模仿和擴(kuò)展，提供了前所未有的能力，為Agent的發(fā)展打開(kāi)了新天地。

在大模型出現(xiàn)之前，已經(jīng)出現(xiàn)了符號(hào)Agent、反應(yīng)型Agent、基于強(qiáng)化學(xué)習(xí)的Agent與具有遷移學(xué)習(xí)和元學(xué)習(xí)能力的Agent等[1]。下面分別介紹。

■ 符號(hào)Agent。在人工智能研究的早期階段，占主導(dǎo)地位的方法是符號(hào)人工智能，這種方法采用邏輯規(guī)則和符號(hào)表示來(lái)封裝知識(shí)并促進(jìn)推理過(guò)程。這些Agent擁有顯式和可解釋的推理框架，基于符號(hào)性質(zhì)，它們展現(xiàn)出高度的表達(dá)能力。使用這種方法的經(jīng)典例子是基于知識(shí)庫(kù)構(gòu)建的專(zhuān)家系統(tǒng)。然而，眾所周知，雖然符號(hào)Agent的表達(dá)能力非常強(qiáng)，但無(wú)法解決超出它的知識(shí)庫(kù)記錄的任何問(wèn)題。因此，它們?cè)谔幚聿淮_定性和大規(guī)模現(xiàn)實(shí)世界問(wèn)題時(shí)有局限，而且當(dāng)知識(shí)庫(kù)增加時(shí)，它們對(duì)計(jì)算資源的消耗也會(huì)增加。

■ 反應(yīng)型Agent。與符號(hào)Agent不同，反應(yīng)型Agent不使用復(fù)雜的符號(hào)推理框架，也不因其符號(hào)性質(zhì)而表現(xiàn)出高度的表達(dá)能力。相反，它們主要側(cè)重于Agent與環(huán)境之間的互動(dòng)，強(qiáng)調(diào)快速和實(shí)時(shí)響應(yīng)。這些Agent主要基于感知-動(dòng)作循環(huán)，高效地感知環(huán)境，并做出反應(yīng)。然而，反應(yīng)型Agent也存在局限性。它們通常需要較少的計(jì)算資源，能夠更快地響應(yīng)，但缺乏復(fù)雜的高級(jí)決策制定和規(guī)劃的能力。

■ 基于強(qiáng)化學(xué)習(xí)的Agent。隨著計(jì)算能力和數(shù)據(jù)可用性的提高，以及對(duì)Agent與其環(huán)境之間相互作用模擬的興趣日益高漲，研究人員開(kāi)始利用強(qiáng)化學(xué)習(xí)方法訓(xùn)練Agent，以解決更具挑戰(zhàn)性和復(fù)雜性的任務(wù)。強(qiáng)化學(xué)習(xí)領(lǐng)域的主要問(wèn)題是如何使Agent通過(guò)與環(huán)境的互動(dòng)來(lái)學(xué)習(xí)，使它們能夠?qū)崿F(xiàn)特定任務(wù)中的最大累積回報(bào)。早期基于強(qiáng)化學(xué)習(xí)的Agent主要基于策略搜索和價(jià)值函數(shù)優(yōu)化等基本技術(shù)，如Q-Learning和SARSA。隨著深度學(xué)習(xí)的崛起，深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的結(jié)合，即深度強(qiáng)化學(xué)習(xí)，使Agent能夠從高維輸入中學(xué)習(xí)復(fù)雜策略。這使得我們看到像AlphaGo這樣的重大成就。這種方法的優(yōu)勢(shì)在于它能夠使Agent自主地在未知環(huán)境中學(xué)習(xí)，無(wú)須顯式人為干預(yù)，這為其在游戲、機(jī)器人控制等領(lǐng)域中的廣泛應(yīng)用提供了可能。盡管如此，在復(fù)雜的現(xiàn)實(shí)世界中，強(qiáng)化學(xué)習(xí)仍面臨訓(xùn)練時(shí)間長(zhǎng)、樣本效率低和穩(wěn)定性差等諸多挑戰(zhàn)。

■ 具有遷移學(xué)習(xí)和元學(xué)習(xí)能力的Agent。為了解決基于強(qiáng)化學(xué)習(xí)的Agent在新任務(wù)上的學(xué)習(xí)要求大量的樣本和長(zhǎng)時(shí)間的訓(xùn)練，并且缺乏泛化能力的問(wèn)題，研究人員引入遷移學(xué)習(xí)來(lái)減輕新任務(wù)訓(xùn)練的負(fù)擔(dān)，促進(jìn)跨不同任務(wù)的知識(shí)共享和遷移，從而提高學(xué)習(xí)效率和泛化能力。元學(xué)習(xí)專(zhuān)注學(xué)習(xí)如何學(xué)習(xí)，能夠迅速推斷出針對(duì)新任務(wù)的最優(yōu)策略。這樣的Agent在面對(duì)新任務(wù)時(shí)，能夠迅速調(diào)整學(xué)習(xí)策略，利用已獲得的一般知識(shí)和策略，因而能夠減少對(duì)大量樣本的依賴(lài)。然而，顯著的樣本差異可能會(huì)削弱遷移學(xué)習(xí)的效果。此外，大量的預(yù)訓(xùn)練和對(duì)大樣本量的需求可能使得元學(xué)習(xí)難以建立一個(gè)通用的學(xué)習(xí)策略。

所以，盡管AI研究人員一直在努力嘗試，也的確取得了很大突破（AlphaGo戰(zhàn)勝世界圍棋冠軍），但是沒(méi)有大模型指揮的Agent無(wú)法在較為通用的應(yīng)用領(lǐng)域發(fā)揮真正的作用，例如，無(wú)障礙地和人交流，或者根據(jù)清晰的人類(lèi)指令在較復(fù)雜的情景中完成一個(gè)哪怕較為簡(jiǎn)單的任務(wù)——上一代的Agent無(wú)法做到這些事情。

官术网_书友最值得收藏!

大模型應(yīng)用開(kāi)發(fā)：動(dòng)手做AI Agent

1.3.2 大模型出現(xiàn)之前的Agent

1.3.2　大模型出現(xiàn)之前的Agent