- 大模型應(yīng)用開(kāi)發(fā):動(dòng)手做AI Agent
- 黃佳
- 1308字
- 2024-09-05 17:11:38
1.3.2 大模型出現(xiàn)之前的Agent
在深度神經(jīng)網(wǎng)絡(luò)和大模型出現(xiàn)之前,沒(méi)有任何一種技術(shù)能夠賦予Agent一個(gè)復(fù)雜程度可以與人類(lèi)大腦相匹敵的“智腦”。而大模型直接改變了人們對(duì)Agent的看法和期待。這些大模型不僅僅是語(yǔ)言處理工具,它們也是對(duì)人類(lèi)智能的一種深層模仿和擴(kuò)展,提供了前所未有的能力,為Agent的發(fā)展打開(kāi)了新天地。
在大模型出現(xiàn)之前,已經(jīng)出現(xiàn)了符號(hào)Agent、反應(yīng)型Agent、基于強(qiáng)化學(xué)習(xí)的Agent與具有遷移學(xué)習(xí)和元學(xué)習(xí)能力的Agent等[1]。下面分別介紹。
■ 符號(hào)Agent。在人工智能研究的早期階段,占主導(dǎo)地位的方法是符號(hào)人工智能,這種方法采用邏輯規(guī)則和符號(hào)表示來(lái)封裝知識(shí)并促進(jìn)推理過(guò)程。這些Agent擁有顯式和可解釋的推理框架,基于符號(hào)性質(zhì),它們展現(xiàn)出高度的表達(dá)能力。使用這種方法的經(jīng)典例子是基于知識(shí)庫(kù)構(gòu)建的專(zhuān)家系統(tǒng)。然而,眾所周知,雖然符號(hào)Agent的表達(dá)能力非常強(qiáng),但無(wú)法解決超出它的知識(shí)庫(kù)記錄的任何問(wèn)題。因此,它們?cè)谔幚聿淮_定性和大規(guī)模現(xiàn)實(shí)世界問(wèn)題時(shí)有局限,而且當(dāng)知識(shí)庫(kù)增加時(shí),它們對(duì)計(jì)算資源的消耗也會(huì)增加。
■ 反應(yīng)型Agent。與符號(hào)Agent不同,反應(yīng)型Agent不使用復(fù)雜的符號(hào)推理框架,也不因其符號(hào)性質(zhì)而表現(xiàn)出高度的表達(dá)能力。相反,它們主要側(cè)重于Agent與環(huán)境之間的互動(dòng),強(qiáng)調(diào)快速和實(shí)時(shí)響應(yīng)。這些Agent主要基于感知-動(dòng)作循環(huán),高效地感知環(huán)境,并做出反應(yīng)。然而,反應(yīng)型Agent也存在局限性。它們通常需要較少的計(jì)算資源,能夠更快地響應(yīng),但缺乏復(fù)雜的高級(jí)決策制定和規(guī)劃的能力。
■ 基于強(qiáng)化學(xué)習(xí)的Agent。隨著計(jì)算能力和數(shù)據(jù)可用性的提高,以及對(duì)Agent與其環(huán)境之間相互作用模擬的興趣日益高漲,研究人員開(kāi)始利用強(qiáng)化學(xué)習(xí)方法訓(xùn)練Agent,以解決更具挑戰(zhàn)性和復(fù)雜性的任務(wù)。強(qiáng)化學(xué)習(xí)領(lǐng)域的主要問(wèn)題是如何使Agent通過(guò)與環(huán)境的互動(dòng)來(lái)學(xué)習(xí),使它們能夠?qū)崿F(xiàn)特定任務(wù)中的最大累積回報(bào)。早期基于強(qiáng)化學(xué)習(xí)的Agent主要基于策略搜索和價(jià)值函數(shù)優(yōu)化等基本技術(shù),如Q-Learning和SARSA。隨著深度學(xué)習(xí)的崛起,深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的結(jié)合,即深度強(qiáng)化學(xué)習(xí),使Agent能夠從高維輸入中學(xué)習(xí)復(fù)雜策略。這使得我們看到像AlphaGo這樣的重大成就。這種方法的優(yōu)勢(shì)在于它能夠使Agent自主地在未知環(huán)境中學(xué)習(xí),無(wú)須顯式人為干預(yù),這為其在游戲、機(jī)器人控制等領(lǐng)域中的廣泛應(yīng)用提供了可能。盡管如此,在復(fù)雜的現(xiàn)實(shí)世界中,強(qiáng)化學(xué)習(xí)仍面臨訓(xùn)練時(shí)間長(zhǎng)、樣本效率低和穩(wěn)定性差等諸多挑戰(zhàn)。
■ 具有遷移學(xué)習(xí)和元學(xué)習(xí)能力的Agent。為了解決基于強(qiáng)化學(xué)習(xí)的Agent在新任務(wù)上的學(xué)習(xí)要求大量的樣本和長(zhǎng)時(shí)間的訓(xùn)練,并且缺乏泛化能力的問(wèn)題,研究人員引入遷移學(xué)習(xí)來(lái)減輕新任務(wù)訓(xùn)練的負(fù)擔(dān),促進(jìn)跨不同任務(wù)的知識(shí)共享和遷移,從而提高學(xué)習(xí)效率和泛化能力。元學(xué)習(xí)專(zhuān)注學(xué)習(xí)如何學(xué)習(xí),能夠迅速推斷出針對(duì)新任務(wù)的最優(yōu)策略。這樣的Agent在面對(duì)新任務(wù)時(shí),能夠迅速調(diào)整學(xué)習(xí)策略,利用已獲得的一般知識(shí)和策略,因而能夠減少對(duì)大量樣本的依賴(lài)。然而,顯著的樣本差異可能會(huì)削弱遷移學(xué)習(xí)的效果。此外,大量的預(yù)訓(xùn)練和對(duì)大樣本量的需求可能使得元學(xué)習(xí)難以建立一個(gè)通用的學(xué)習(xí)策略。
所以,盡管AI研究人員一直在努力嘗試,也的確取得了很大突破(AlphaGo戰(zhàn)勝世界圍棋冠軍),但是沒(méi)有大模型指揮的Agent無(wú)法在較為通用的應(yīng)用領(lǐng)域發(fā)揮真正的作用,例如,無(wú)障礙地和人交流,或者根據(jù)清晰的人類(lèi)指令在較復(fù)雜的情景中完成一個(gè)哪怕較為簡(jiǎn)單的任務(wù)——上一代的Agent無(wú)法做到這些事情。
- 知識(shí)圖譜與認(rèn)知智能:基本原理、關(guān)鍵技術(shù)、應(yīng)用場(chǎng)景與解決方案
- 基于機(jī)器學(xué)習(xí)的行為識(shí)別技術(shù)研究
- 人工智能安全
- AI Agent設(shè)計(jì)實(shí)戰(zhàn):智能體設(shè)計(jì)的方法與技巧
- C#神經(jīng)網(wǎng)絡(luò)編程
- 人工智能視域下機(jī)器學(xué)習(xí)在教育研究中的應(yīng)用
- 人人都是設(shè)計(jì)師:設(shè)計(jì)基礎(chǔ)+Midjourney+ChatGPT
- GPT圖解:大模型是怎樣構(gòu)建的
- 深度學(xué)習(xí)高手筆記(卷2):經(jīng)典應(yīng)用
- 深度學(xué)習(xí)之TensorFlow:入門(mén)、原理與進(jìn)階實(shí)戰(zhàn)
- 機(jī)器人圖形化編程:從0到1
- VR簡(jiǎn)史:一本書(shū)讀懂虛擬現(xiàn)實(shí)
- AI賦能項(xiàng)目經(jīng)理:10倍提升項(xiàng)目管理效率
- 精通AI虛擬數(shù)字人制作與應(yīng)用:直播主播+視頻博主+營(yíng)銷(xiāo)推廣+教育培訓(xùn)
- DeepSeek快速上手