官术网_书友最值得收藏!

1.3.2 大模型出現(xiàn)之前的Agent

在深度神經(jīng)網(wǎng)絡(luò)和大模型出現(xiàn)之前,沒(méi)有任何一種技術(shù)能夠賦予Agent一個(gè)復(fù)雜程度可以與人類(lèi)大腦相匹敵的“智腦”。而大模型直接改變了人們對(duì)Agent的看法和期待。這些大模型不僅僅是語(yǔ)言處理工具,它們也是對(duì)人類(lèi)智能的一種深層模仿和擴(kuò)展,提供了前所未有的能力,為Agent的發(fā)展打開(kāi)了新天地。

在大模型出現(xiàn)之前,已經(jīng)出現(xiàn)了符號(hào)Agent、反應(yīng)型Agent、基于強(qiáng)化學(xué)習(xí)的Agent與具有遷移學(xué)習(xí)和元學(xué)習(xí)能力的Agent等[1]。下面分別介紹。

符號(hào)Agent。在人工智能研究的早期階段,占主導(dǎo)地位的方法是符號(hào)人工智能,這種方法采用邏輯規(guī)則和符號(hào)表示來(lái)封裝知識(shí)并促進(jìn)推理過(guò)程。這些Agent擁有顯式和可解釋的推理框架,基于符號(hào)性質(zhì),它們展現(xiàn)出高度的表達(dá)能力。使用這種方法的經(jīng)典例子是基于知識(shí)庫(kù)構(gòu)建的專(zhuān)家系統(tǒng)。然而,眾所周知,雖然符號(hào)Agent的表達(dá)能力非常強(qiáng),但無(wú)法解決超出它的知識(shí)庫(kù)記錄的任何問(wèn)題。因此,它們?cè)谔幚聿淮_定性和大規(guī)模現(xiàn)實(shí)世界問(wèn)題時(shí)有局限,而且當(dāng)知識(shí)庫(kù)增加時(shí),它們對(duì)計(jì)算資源的消耗也會(huì)增加。

反應(yīng)型Agent。與符號(hào)Agent不同,反應(yīng)型Agent不使用復(fù)雜的符號(hào)推理框架,也不因其符號(hào)性質(zhì)而表現(xiàn)出高度的表達(dá)能力。相反,它們主要側(cè)重于Agent與環(huán)境之間的互動(dòng),強(qiáng)調(diào)快速和實(shí)時(shí)響應(yīng)。這些Agent主要基于感知-動(dòng)作循環(huán),高效地感知環(huán)境,并做出反應(yīng)。然而,反應(yīng)型Agent也存在局限性。它們通常需要較少的計(jì)算資源,能夠更快地響應(yīng),但缺乏復(fù)雜的高級(jí)決策制定和規(guī)劃的能力。

基于強(qiáng)化學(xué)習(xí)的Agent。隨著計(jì)算能力和數(shù)據(jù)可用性的提高,以及對(duì)Agent與其環(huán)境之間相互作用模擬的興趣日益高漲,研究人員開(kāi)始利用強(qiáng)化學(xué)習(xí)方法訓(xùn)練Agent,以解決更具挑戰(zhàn)性和復(fù)雜性的任務(wù)。強(qiáng)化學(xué)習(xí)領(lǐng)域的主要問(wèn)題是如何使Agent通過(guò)與環(huán)境的互動(dòng)來(lái)學(xué)習(xí),使它們能夠?qū)崿F(xiàn)特定任務(wù)中的最大累積回報(bào)。早期基于強(qiáng)化學(xué)習(xí)的Agent主要基于策略搜索和價(jià)值函數(shù)優(yōu)化等基本技術(shù),如Q-Learning和SARSA。隨著深度學(xué)習(xí)的崛起,深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的結(jié)合,即深度強(qiáng)化學(xué)習(xí),使Agent能夠從高維輸入中學(xué)習(xí)復(fù)雜策略。這使得我們看到像AlphaGo這樣的重大成就。這種方法的優(yōu)勢(shì)在于它能夠使Agent自主地在未知環(huán)境中學(xué)習(xí),無(wú)須顯式人為干預(yù),這為其在游戲、機(jī)器人控制等領(lǐng)域中的廣泛應(yīng)用提供了可能。盡管如此,在復(fù)雜的現(xiàn)實(shí)世界中,強(qiáng)化學(xué)習(xí)仍面臨訓(xùn)練時(shí)間長(zhǎng)、樣本效率低和穩(wěn)定性差等諸多挑戰(zhàn)。

具有遷移學(xué)習(xí)和元學(xué)習(xí)能力的Agent。為了解決基于強(qiáng)化學(xué)習(xí)的Agent在新任務(wù)上的學(xué)習(xí)要求大量的樣本和長(zhǎng)時(shí)間的訓(xùn)練,并且缺乏泛化能力的問(wèn)題,研究人員引入遷移學(xué)習(xí)來(lái)減輕新任務(wù)訓(xùn)練的負(fù)擔(dān),促進(jìn)跨不同任務(wù)的知識(shí)共享和遷移,從而提高學(xué)習(xí)效率和泛化能力。元學(xué)習(xí)專(zhuān)注學(xué)習(xí)如何學(xué)習(xí),能夠迅速推斷出針對(duì)新任務(wù)的最優(yōu)策略。這樣的Agent在面對(duì)新任務(wù)時(shí),能夠迅速調(diào)整學(xué)習(xí)策略,利用已獲得的一般知識(shí)和策略,因而能夠減少對(duì)大量樣本的依賴(lài)。然而,顯著的樣本差異可能會(huì)削弱遷移學(xué)習(xí)的效果。此外,大量的預(yù)訓(xùn)練和對(duì)大樣本量的需求可能使得元學(xué)習(xí)難以建立一個(gè)通用的學(xué)習(xí)策略。

所以,盡管AI研究人員一直在努力嘗試,也的確取得了很大突破(AlphaGo戰(zhàn)勝世界圍棋冠軍),但是沒(méi)有大模型指揮的Agent無(wú)法在較為通用的應(yīng)用領(lǐng)域發(fā)揮真正的作用,例如,無(wú)障礙地和人交流,或者根據(jù)清晰的人類(lèi)指令在較復(fù)雜的情景中完成一個(gè)哪怕較為簡(jiǎn)單的任務(wù)——上一代的Agent無(wú)法做到這些事情。

主站蜘蛛池模板: 汶川县| 株洲县| 牙克石市| 磴口县| 凤阳县| 黄石市| 雷州市| 化州市| 霍邱县| 连城县| 忻州市| 和田县| 文安县| 花莲市| 高陵县| 当雄县| 富平县| 西青区| 遵义市| 怀集县| 沙田区| 义马市| 清徐县| 石棉县| 清苑县| 镇雄县| 阿荣旗| 丰城市| 贡觉县| 灵丘县| 砀山县| 富顺县| 耒阳市| 丰都县| 绵阳市| 南涧| 南平市| 昭觉县| 大理市| 工布江达县| 南宁市|