官术网_书友最值得收藏!

1.1 大模型的概念

大型語言模型簡稱大模型,是NLP的一個重要分支和應(yīng)用。NLP(Natural Language Processing,自然語言處理),作為計(jì)算機(jī)科學(xué)和AI(人工智能)領(lǐng)域中的一個核心方向,專注于利用計(jì)算機(jī)技術(shù)來分析、理解和處理自然語言。NLP的核心任務(wù)是將計(jì)算機(jī)作為語言研究的強(qiáng)大工具,不僅在計(jì)算機(jī)的支持下對語言信息進(jìn)行定量化研究,還致力于提供一種人與計(jì)算機(jī)之間能夠共同使用的語言描述。這種描述不僅有助于機(jī)器更好地理解人類的語言,也為人類提供了一種與機(jī)器交流的方式。

NLP主要包含兩部分:NLU(Natural Language Understanding,自然語言理解)和NLG(Natural Language Generation,自然語言生成)。NLU的目標(biāo)是使計(jì)算機(jī)能夠理解自然語言文本的含義,而NLG則致力于使計(jì)算機(jī)能夠以自然語言的形式表達(dá)深層的意圖和思想。盡管NLU和NLG面臨的挑戰(zhàn)巨大,但隨著技術(shù)的進(jìn)步,已經(jīng)有一些實(shí)用的系統(tǒng)被開發(fā)出來,并在某些領(lǐng)域?qū)崿F(xiàn)了商品化和產(chǎn)業(yè)化。這些應(yīng)用包括多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)和自動文摘系統(tǒng)等。然而,開發(fā)出通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是一個長期且具有挑戰(zhàn)性的目標(biāo)。

本質(zhì)上,大模型是一種深度神經(jīng)網(wǎng)絡(luò)模型,通常由數(shù)十億個權(quán)重或數(shù)千億個參數(shù)組成。以ChatGPT為例,其當(dāng)前模型由1750億個浮點(diǎn)數(shù)參數(shù)構(gòu)成,是一個高度復(fù)雜的對話式AI系統(tǒng)。

大模型主要通過自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)或半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning)進(jìn)行訓(xùn)練,利用預(yù)訓(xùn)練任務(wù)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息(用于訓(xùn)練模型的數(shù)據(jù),不僅包含輸入特征,還包含對應(yīng)的輸出標(biāo)簽或結(jié)果)。通過這種方式,模型能夠?qū)W習(xí)到對特定領(lǐng)域有價值的表征(模型將輸入數(shù)據(jù)轉(zhuǎn)換成數(shù)學(xué)上的向量形式,以方便計(jì)算和分析)。在海量信息的參數(shù)化全量記憶、任意任務(wù)的對話式理解、復(fù)雜邏輯的思維鏈推理、多角色多風(fēng)格長文本生成、程序代碼生成和輸入圖像的語義層理解等方面,大模型實(shí)現(xiàn)了顯著的突破,體現(xiàn)了語言智能的“智能涌現(xiàn)”。

智能涌現(xiàn)是指當(dāng)模型的規(guī)模和訓(xùn)練數(shù)據(jù)量達(dá)到一定水平時,模型會展現(xiàn)出一些新的、更高級的技能,這可以被看作一種“量變引起質(zhì)變”的現(xiàn)象。實(shí)驗(yàn)已經(jīng)證明,針對相對復(fù)雜任務(wù)的智能涌現(xiàn)對模型的大小(如100億個參數(shù))是有要求的。智能涌現(xiàn)的通用AI系統(tǒng)在廣泛的自然語言任務(wù)中展現(xiàn)出卓越的性能。

如圖1-1所示的具有多模態(tài)能力的“智能涌現(xiàn)”的通用AI系統(tǒng),不僅改變了信息的分發(fā)和獲取模式,還革新了內(nèi)容生產(chǎn)方式,實(shí)現(xiàn)了全自然交互完成任務(wù),提供了專家級的虛擬助手,顛覆了傳統(tǒng)的手工編程方式,成為科研工作的加速器。這些進(jìn)步為解決人類的基本需求帶來了全新的機(jī)遇。

圖1-1 大模型的“智能涌現(xiàn)”解決人類剛需

如圖1-2所示,AI的發(fā)展經(jīng)歷了一個螺旋式上升的過程。自1956年達(dá)特茅斯會議上首次提出AI概念以來,AI技術(shù)經(jīng)歷了多個重要階段。

1)20世紀(jì)50~20世紀(jì)70年代:AI的早期發(fā)展階段,研究方向集中在符號邏輯推理上。

2)20世紀(jì)80年代至90年代:知識工程成為AI領(lǐng)域的主要研究方向,強(qiáng)調(diào)知識庫的構(gòu)建和應(yīng)用,即引入專家系統(tǒng)。

3)21世紀(jì)初~2020年:深度學(xué)習(xí)技術(shù)的興起,極大地推動了AI在圖像識別、語音識別等領(lǐng)域的應(yīng)用。

4)2020年至今:深度神經(jīng)網(wǎng)絡(luò)大模型的發(fā)展,使得AI從簡單的預(yù)測推斷向復(fù)雜的內(nèi)容生成邁進(jìn),從專用任務(wù)向通用任務(wù)擴(kuò)展,并逐步替代從低端重復(fù)性工作到高端腦力勞動的各種任務(wù)。

這一演進(jìn)不僅標(biāo)志著AI技術(shù)的進(jìn)步,也預(yù)示著我們可能正在接近通用AI。

圖1-2 AI的四次浪潮

大模型的智能涌現(xiàn)預(yù)示著機(jī)器將能夠真正掌握并運(yùn)用人類語言和知識,開啟一種“類人”的自然語言交互式學(xué)習(xí)新范式。這種以語言智能為核心的突破,標(biāo)志著機(jī)器智能進(jìn)入了一個全新的發(fā)展階段。

作為人工智能邁向通用智能的關(guān)鍵技術(shù),大模型在“大數(shù)據(jù)、大算力和強(qiáng)算法”的支持下,通過在海量數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練[1],以及提示工程(Prompt Engineering)或模型微調(diào)[2](在有標(biāo)注數(shù)據(jù)的特定領(lǐng)域任務(wù)上進(jìn)行二次訓(xùn)練),能夠完成多種應(yīng)用場景的任務(wù),展現(xiàn)出完成通用任務(wù)的潛力。

大模型的學(xué)習(xí)和發(fā)展過程與人類的成長過程有著驚人的相似之處。人類的成長需要廣泛的閱讀、豐富的實(shí)踐和深入的交流,而大模型則需要大規(guī)模的數(shù)據(jù)輸入、模型預(yù)訓(xùn)練和微調(diào)迭代。人類的基礎(chǔ)教育和大學(xué)教育相當(dāng)于大模型的預(yù)訓(xùn)練階段,而研究生學(xué)習(xí)和職業(yè)學(xué)習(xí)則相當(dāng)于大模型的微調(diào)迭代和強(qiáng)化領(lǐng)域技能。此外,大模型的模型對齊過程,實(shí)際上也是在模仿人類遵守法律和道德規(guī)范的過程。

主站蜘蛛池模板: 汾西县| 额尔古纳市| 丰顺县| 璧山县| 林口县| 株洲市| 玛纳斯县| 阿克| 伊通| 渭源县| 洮南市| 鹿邑县| 高尔夫| 张掖市| 庆阳市| 河南省| 龙江县| 台北市| 安岳县| 鹰潭市| 彭阳县| 松溪县| 华阴市| 九龙县| 万安县| 九江市| 枞阳县| 厦门市| 阿勒泰市| 微山县| 香港| 丹凤县| 安徽省| 洛隆县| 广德县| 陆良县| 鄂尔多斯市| 大田县| 金堂县| 天水市| 平谷区|