官术网_书友最值得收藏!

1.3 未來發(fā)展方向

根據(jù)Mahowald et al(2023)的研究,推理知識有4種類型——形式推理(如邏輯推理和問題解決)、世界知識(包括物體、事件、屬性、參與者和關(guān)系的知識)、情景建模(創(chuàng)建從語言輸入中提取的故事表征并跟蹤其隨時間演變的能力)和社會推理(在使用語言的同時考慮對話者的心理狀態(tài)和共享知識)。正如Mahowald et al(2023)和Kauf et al(2022)等其他研究評估的證據(jù)所展示的,在某種程度上,許多LLM在其中許多領(lǐng)域的表現(xiàn)仍然不如人類。

目前在網(wǎng)絡(luò)自然文本語料庫上訓練LLM,以預(yù)測上下文中的單詞為目標的方法,不足以誘導功能性語言能力(functional linguistic competence)的涌現(xiàn)。這種方法偏向于低層次的輸入屬性,缺乏常識性知識,限制了模型的泛化能力,而且需要大量的數(shù)據(jù)。然而,最近的例子,如Minerva、InstructGPT(Ouyang et al,2022)和ChatGPT,都顯示了通過調(diào)整訓練數(shù)據(jù)和(或)目標函數(shù)而改進的結(jié)果。這些模型在專門的語料庫上進行微調(diào),并使用額外的技巧,如基于人類反饋的強化學習。Mahowald et al(2023)認為,一個成功的現(xiàn)實世界語言使用模型需要包括問題解決者、落地體驗者、情境建模者、實用推理者和目標設(shè)定者,因此,它應(yīng)該是一個包含領(lǐng)域通用和特定領(lǐng)域(domain-specific)成分的通用智能模型。這可以通過在具有不同目標函數(shù)的數(shù)據(jù)集上訓練模塊化模型來實現(xiàn)。

由于語言并不能表達知識的所有方面,因此我們很難從中獲得完整的信息。這是一種被稱為“報告偏差”(reporting bias)的現(xiàn)象造成的(Gordon and Van Durme,2013),即說話者可能會省略他們認為聽眾已經(jīng)知道的信息。報告偏差是Grice的數(shù)量準則(maxim of quantity)的結(jié)果,它表明,交流應(yīng)該具有足夠的信息量,但不能過度。Paik et al(2021)的研究表明,與草莓等單一顏色相關(guān)概念的顏色信息在語言生成中的表現(xiàn)力很差。此外,神經(jīng)語言模型對物體的典型視覺屬性(如形狀)的了解有限,而更大的模型并不一定能改善這一局限性(Zhang et al,2022a)。然而,這種局限性可能是由于純文本基礎(chǔ)模型缺乏落地,若為它們提供語言之外的信息,就像多模態(tài)模型那樣,有助于緩解這個問題。歸根結(jié)底,基礎(chǔ)模型缺乏將從文本中獲得的知識恰當?shù)乇碚骱徒M織成適當結(jié)構(gòu)并使用這些結(jié)構(gòu)來解決語言理解任務(wù)的能力。因此,挑戰(zhàn)不在于獲得它們所訓練的數(shù)據(jù)中無法獲得的特定信息,而在于開發(fā)能夠更好地利用從文本中習得信息的模型(Lenci,2023)。

為了衡量在創(chuàng)建能夠以類似人類的方式使用語言的語言模型方面所取得的進展,建立評估形式語言能力和功能語言能力的基準至關(guān)重要。這種區(qū)分有助于在討論語言模型時消除混淆,也可以消除“語言能力強等于思維能力強”和“思維能力差等于語言能力差”(Mahowald et al,2023)等錯誤觀念。目前,已經(jīng)有幾個可用于評估語言模型的形式語言能力的基準(Gauthier et al,2020),但還需要更多的測試來評估語言的核心特征,如層次和抽象。然而,至今還沒有評估功能語言能力的單一基準,而且針對功能語言能力子集(如常識性推理)的數(shù)據(jù)集可能會被語言模型利用有缺陷的啟發(fā)式方法所操縱。盡管如此,我們?nèi)杂锌赡軈^(qū)分基于詞共現(xiàn)的技巧和真正的推理能力。對語言模型的形式語言能力和功能語言能力進行全面、單獨的評估,有助于創(chuàng)建在這兩個領(lǐng)域都很出色的模型。最終,語言模型應(yīng)該能夠解決需要各方面語言能力的復(fù)雜任務(wù),但在目前的早期階段,重要的是關(guān)注可以分離的特定技能,以便更好地了解模型的缺點(Mahowald et al,2023)。

根據(jù)Villalobos et al(2022)的分析,高質(zhì)量語言數(shù)據(jù)很快就會耗盡,可能在2026年之前。然而,低質(zhì)量語言數(shù)據(jù)和圖像數(shù)據(jù)的耗盡時間預(yù)計會晚得多,低質(zhì)量語言數(shù)據(jù)的耗盡時間為2030年至2050年,圖像數(shù)據(jù)的耗盡時間為2030年至2060年。這項研究表明,除非數(shù)據(jù)效率得到顯著提高或出現(xiàn)替代數(shù)據(jù)源,否則嚴重依賴海量數(shù)據(jù)集的機器學習模型的持續(xù)擴展可能會減速。

人工智能研究的一個新領(lǐng)域旨在使LLM能夠產(chǎn)生自己的訓練數(shù)據(jù),并利用它來提高性能。雖然人類從外部來源習得知識,如閱讀書籍,但我們也可以通過分析和反思內(nèi)部信息來產(chǎn)生獨特的想法和見解。同樣,LLM可以利用它們在訓練過程中吸收的大量書面數(shù)據(jù)(如維基百科、新聞文章和圖書)來創(chuàng)造新的書面內(nèi)容并進一步提升自己的能力。

最近的研究表明,LLM可以通過生成一組問題和答案、過濾最佳輸出和微調(diào)仔細挑選的答案來進行自我改進(Huang et al,2022)。這種方法在各種語言任務(wù)(包括用于評估LLM性能的基準)上取得了先進的性能。此外,研究人員還開發(fā)了能生成自然語言指令的LLM,然后LLM根據(jù)這些指令進行自我微調(diào),從而顯著提高性能(Wang et al,2022e)。Sun et al(2022)認為,如果LLM在回答問題之前背誦它對某一主題的了解,它就能提供更準確和更復(fù)雜的回答。這與人類在分享自己的觀點之前反思自己的信念和記憶相類似。

將LLM與人類大腦相類比,可以減輕人們對LLM生成自己的數(shù)據(jù)是循環(huán)論證的擔憂。人類也會攝入大量數(shù)據(jù),這些數(shù)據(jù)會改變?nèi)祟惔竽X中的神經(jīng)連接,從而產(chǎn)生人類大腦或任何外部信息源中都沒有的新見解。同樣,如果LLM能夠生成自己的訓練數(shù)據(jù),就可以解決阻礙人工智能發(fā)展的迫在眉睫的數(shù)據(jù)短缺問題。如果LLM能夠生成自己的訓練數(shù)據(jù)并繼續(xù)自我完善,這將是人工智能的一個重大飛躍。

人們普遍認為ChatGPT和GPT-4等模型將取代流行的搜索引擎,成為主要的信息來源。然而,這種想法過于樂觀,因為如今的LLM會產(chǎn)生不準確和誤導性的信息。盡管LLM的功能強大,但也存在“幻覺”問題,即它們會犯一些錯誤,如推薦不存在的圖書或提供不正確的概念解釋。

目前,人們正在努力通過創(chuàng)新來減輕LLM在事實方面的不可靠性,使它們能夠從外部來源檢索信息,并為它們生成的信息提供參考文獻和引文。我們將在第8章中回顧這一領(lǐng)域的一些新發(fā)展。

當代大語言模型的多功能性和強大功能令人印象深刻。與基于LLM的頂級對話智能體(如ChatGPT)進行討論,可能會令人非常信服,以至于人們最終會將它們擬人化。這里可能有一些復(fù)雜而微妙的東西在起作用。語言模型最近取得的進展表明,當足夠大的模型在豐富的文本數(shù)據(jù)上進行訓練時,就會涌現(xiàn)非同尋常和意想不到的能力。

即使大語言模型本質(zhì)上只能進行序列預(yù)測,但它們在學習時可能發(fā)現(xiàn)需要更高層次解釋的新興機制。這些更高層次的術(shù)語可能包括“知識”和“信念”。我們知道,人工神經(jīng)網(wǎng)絡(luò)可以高度準確地逼近任何可計算的函數(shù)。因此,在參數(shù)、數(shù)據(jù)和計算能力足夠的情況下,如果隨機梯度下降法是優(yōu)化精確序列預(yù)測目標的最佳方式,那么隨機梯度下降法就有可能發(fā)現(xiàn)這種機制。

為了進一步擴展LLM,一種名為稀疏專家模型(sparse expert model)的新方法在人工智能界受到越來越多的關(guān)注。稀疏專家模型的運行方式與密集模型不同,它們只能調(diào)用最相關(guān)的參數(shù)子集來響應(yīng)給定的查詢。這與密集模型形成了鮮明對比,在密集模型中,每次模型運行時都會激活所有參數(shù)。

由于稀疏專家模型的特點是能夠只激活必要的參數(shù)來處理給定的輸入,因此,與密集模型相比,稀疏專家模型的計算能力更強。稀疏專家模型可以看作“子模型”的集合,這些“子模型”是不同主題的“專家”,根據(jù)輸入情況,只激活最相關(guān)的“專家”。這種架構(gòu)是它們被稱為稀疏專家模型的原因。擁有超過1萬億個參數(shù)的大語言模型,如谷歌的Switch Transformer(Fedus et al,2022)、GLaM(Du et al,2022)以及Meta的Mixture of Experts(Artetxe et al,2021),都是稀疏的。我們將在第7章仔細研究稀疏專家模型背后的技術(shù)。

稀疏專家模型可以在不增加運行時間的情況下創(chuàng)建更大的模型,因為密集模型的大小增加一倍,運行速度就會降低一半。最近的研究表明,稀疏專家模型具有巨大的潛力,GLaM模型比GPT-3模型大7倍,訓練所需的能量更少,推理所需的計算量更少,同時在一系列自然語言任務(wù)上的表現(xiàn)也優(yōu)于GPT-3模型。此外,稀疏專家模型只需要很少的計算量,就能實現(xiàn)與密集模型相似的下游任務(wù)性能。除了計算效率高之外,稀疏專家模型也比密集模型更易于解釋,這對于像醫(yī)療保健等高風險環(huán)境來說非常重要。理解模型為什么采取特定行動的能力至關(guān)重要。稀疏模型的可解釋性更強,因為其輸出是“專家”被激活后的結(jié)果,這使得人類更容易提取可理解的解釋。

通過分析用戶互動和個人偏好,新一代LLM在增強個性化和定制化方面有很大的潛力。在與用戶互動的過程中,LLM能夠了解他們的寫作風格、語氣和語言,從而做出更加個性化和精確的回應(yīng)。由于LLM可以學習如何識別和響應(yīng)每個用戶的獨特需求和偏好,因此個性化水平可以提升到能夠提供更好的客戶服務(wù)和教育的地步。此外,開發(fā)人員還可以利用LLM交互產(chǎn)生的大量數(shù)據(jù),創(chuàng)建適合每個用戶特定偏好的語言模型,從而帶來更有吸引力的個性化體驗。

與所有快速發(fā)展的技術(shù)一樣,必須考慮GPT-4模型和其他模型可能帶來的潛在倫理和社會影響。隨著這些技術(shù)的發(fā)展,必須徹底分析各種關(guān)切,如隱私及其對就業(yè)的影響。例如,在客戶服務(wù)領(lǐng)域部署大語言模型可能會導致行業(yè)內(nèi)的職位流失,而通過這些模型收集數(shù)據(jù)又會引發(fā)嚴重的隱私問題。因此,仔細考慮這些技術(shù)的倫理影響,并保證其發(fā)展和應(yīng)用是負責任的、符合倫理的,這一點至關(guān)重要。

在本書中,我們將詳細討論LLM中的偏見和有害性減少等關(guān)鍵話題。此外,我們還將探討如何利用強化學習技術(shù),使得這些模型符合人類價值觀。我們的目的是探索有效減輕LLM的負面影響,提高其對社會的整體效用的方法。

目前,諸如ChatGPT之類的語言模型能夠根據(jù)其內(nèi)部知識為查詢提供答案,但不具備與外部環(huán)境交互的能力。它們無法為不理解的問題檢索信息,也無法執(zhí)行除了用戶生成文本輸出之外的任務(wù)。在不久的將來,新一代大型Transformer模型和語言模型將具備在互聯(lián)網(wǎng)上讀寫和采取行動的強大能力。可以說,這些模型將可能具有廣泛的智能體能力。事實上,“智能體人工智能”可能成為繼“生成式人工智能”之后的下一個大趨勢。

主站蜘蛛池模板: 无棣县| 堆龙德庆县| 阳新县| 麦盖提县| 伊宁市| 启东市| 吉水县| 宁化县| 河津市| 葫芦岛市| 西吉县| 渭源县| 定边县| 织金县| 梧州市| 新田县| 林口县| 丰宁| 剑河县| 临漳县| 定结县| 丹巴县| 崇明县| 洛阳市| 渝北区| 家居| 蒙山县| 清镇市| 孟津县| 余庆县| 二手房| 常宁市| 盖州市| 沾化县| 甘孜县| 印江| 寿宁县| 望江县| 平南县| 甘孜| 大名县|