所有财神像

書名：大模型應(yīng)用開發(fā)：核心技術(shù)與領(lǐng)域?qū)嵺`
作者名：于俊劉淇程禮磊程明月
本章字?jǐn)?shù)： 1733字
更新時間： 2025-02-10 15:44:12

1.1 大模型的概念

大型語言模型簡稱大模型，是NLP的一個重要分支和應(yīng)用。NLP（Natural Language Processing，自然語言處理），作為計(jì)算機(jī)科學(xué)和AI（人工智能）領(lǐng)域中的一個核心方向，專注于利用計(jì)算機(jī)技術(shù)來分析、理解和處理自然語言。NLP的核心任務(wù)是將計(jì)算機(jī)作為語言研究的強(qiáng)大工具，不僅在計(jì)算機(jī)的支持下對語言信息進(jìn)行定量化研究，還致力于提供一種人與計(jì)算機(jī)之間能夠共同使用的語言描述。這種描述不僅有助于機(jī)器更好地理解人類的語言，也為人類提供了一種與機(jī)器交流的方式。

NLP主要包含兩部分：NLU（Natural Language Understanding，自然語言理解）和NLG（Natural Language Generation，自然語言生成）。NLU的目標(biāo)是使計(jì)算機(jī)能夠理解自然語言文本的含義，而NLG則致力于使計(jì)算機(jī)能夠以自然語言的形式表達(dá)深層的意圖和思想。盡管NLU和NLG面臨的挑戰(zhàn)巨大，但隨著技術(shù)的進(jìn)步，已經(jīng)有一些實(shí)用的系統(tǒng)被開發(fā)出來，并在某些領(lǐng)域?qū)崿F(xiàn)了商品化和產(chǎn)業(yè)化。這些應(yīng)用包括多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)和自動文摘系統(tǒng)等。然而，開發(fā)出通用的、高質(zhì)量的自然語言處理系統(tǒng)，仍然是一個長期且具有挑戰(zhàn)性的目標(biāo)。

本質(zhì)上，大模型是一種深度神經(jīng)網(wǎng)絡(luò)模型，通常由數(shù)十億個權(quán)重或數(shù)千億個參數(shù)組成。以ChatGPT為例，其當(dāng)前模型由1750億個浮點(diǎn)數(shù)參數(shù)構(gòu)成，是一個高度復(fù)雜的對話式AI系統(tǒng)。

大模型主要通過自監(jiān)督學(xué)習(xí)（Self-Supervised Learning）或半監(jiān)督學(xué)習(xí)（Semi-Supervised Learning）進(jìn)行訓(xùn)練，利用預(yù)訓(xùn)練任務(wù)從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘自身的監(jiān)督信息（用于訓(xùn)練模型的數(shù)據(jù)，不僅包含輸入特征，還包含對應(yīng)的輸出標(biāo)簽或結(jié)果）。通過這種方式，模型能夠?qū)W習(xí)到對特定領(lǐng)域有價值的表征（模型將輸入數(shù)據(jù)轉(zhuǎn)換成數(shù)學(xué)上的向量形式，以方便計(jì)算和分析）。在海量信息的參數(shù)化全量記憶、任意任務(wù)的對話式理解、復(fù)雜邏輯的思維鏈推理、多角色多風(fēng)格長文本生成、程序代碼生成和輸入圖像的語義層理解等方面，大模型實(shí)現(xiàn)了顯著的突破，體現(xiàn)了語言智能的“智能涌現(xiàn)”。

智能涌現(xiàn)是指當(dāng)模型的規(guī)模和訓(xùn)練數(shù)據(jù)量達(dá)到一定水平時，模型會展現(xiàn)出一些新的、更高級的技能，這可以被看作一種“量變引起質(zhì)變”的現(xiàn)象。實(shí)驗(yàn)已經(jīng)證明，針對相對復(fù)雜任務(wù)的智能涌現(xiàn)對模型的大小（如100億個參數(shù)）是有要求的。智能涌現(xiàn)的通用AI系統(tǒng)在廣泛的自然語言任務(wù)中展現(xiàn)出卓越的性能。

如圖1-1所示的具有多模態(tài)能力的“智能涌現(xiàn)”的通用AI系統(tǒng)，不僅改變了信息的分發(fā)和獲取模式，還革新了內(nèi)容生產(chǎn)方式，實(shí)現(xiàn)了全自然交互完成任務(wù)，提供了專家級的虛擬助手，顛覆了傳統(tǒng)的手工編程方式，成為科研工作的加速器。這些進(jìn)步為解決人類的基本需求帶來了全新的機(jī)遇。

圖1-1 大模型的“智能涌現(xiàn)”解決人類剛需

如圖1-2所示，AI的發(fā)展經(jīng)歷了一個螺旋式上升的過程。自1956年達(dá)特茅斯會議上首次提出AI概念以來，AI技術(shù)經(jīng)歷了多個重要階段。

1）20世紀(jì)50～20世紀(jì)70年代：AI的早期發(fā)展階段，研究方向集中在符號邏輯推理上。

2）20世紀(jì)80年代至90年代：知識工程成為AI領(lǐng)域的主要研究方向，強(qiáng)調(diào)知識庫的構(gòu)建和應(yīng)用，即引入專家系統(tǒng)。

3）21世紀(jì)初～2020年：深度學(xué)習(xí)技術(shù)的興起，極大地推動了AI在圖像識別、語音識別等領(lǐng)域的應(yīng)用。

4）2020年至今：深度神經(jīng)網(wǎng)絡(luò)大模型的發(fā)展，使得AI從簡單的預(yù)測推斷向復(fù)雜的內(nèi)容生成邁進(jìn)，從專用任務(wù)向通用任務(wù)擴(kuò)展，并逐步替代從低端重復(fù)性工作到高端腦力勞動的各種任務(wù)。

這一演進(jìn)不僅標(biāo)志著AI技術(shù)的進(jìn)步，也預(yù)示著我們可能正在接近通用AI。

圖1-2 AI的四次浪潮

大模型的智能涌現(xiàn)預(yù)示著機(jī)器將能夠真正掌握并運(yùn)用人類語言和知識，開啟一種“類人”的自然語言交互式學(xué)習(xí)新范式。這種以語言智能為核心的突破，標(biāo)志著機(jī)器智能進(jìn)入了一個全新的發(fā)展階段。

作為人工智能邁向通用智能的關(guān)鍵技術(shù)，大模型在“大數(shù)據(jù)、大算力和強(qiáng)算法”的支持下，通過在海量數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練[1]，以及提示工程（Prompt Engineering）或模型微調(diào)[2]（在有標(biāo)注數(shù)據(jù)的特定領(lǐng)域任務(wù)上進(jìn)行二次訓(xùn)練），能夠完成多種應(yīng)用場景的任務(wù)，展現(xiàn)出完成通用任務(wù)的潛力。

大模型的學(xué)習(xí)和發(fā)展過程與人類的成長過程有著驚人的相似之處。人類的成長需要廣泛的閱讀、豐富的實(shí)踐和深入的交流，而大模型則需要大規(guī)模的數(shù)據(jù)輸入、模型預(yù)訓(xùn)練和微調(diào)迭代。人類的基礎(chǔ)教育和大學(xué)教育相當(dāng)于大模型的預(yù)訓(xùn)練階段，而研究生學(xué)習(xí)和職業(yè)學(xué)習(xí)則相當(dāng)于大模型的微調(diào)迭代和強(qiáng)化領(lǐng)域技能。此外，大模型的模型對齊過程，實(shí)際上也是在模仿人類遵守法律和道德規(guī)范的過程。

官术网_书友最值得收藏!

大模型應(yīng)用開發(fā)：核心技術(shù)與領(lǐng)域?qū)嵺`

1.1 大模型的概念