書名: 大模型浪潮:商業(yè)機遇、產(chǎn)業(yè)變革與未來趨勢作者名: 沈抖本章字數(shù): 6325字更新時間: 2025-07-01 17:24:09
第二節(jié)
大模型有什么獨特之處
毫無疑問,這是一個全新的時代。今天,人們把人工智能、大模型稱作“第四次工業(yè)革命”,認為大模型將會非常長遠、深刻地改變一切。那么,大模型有哪些獨特之處,配得上如此高的評價,值得如此期待呢?
一、從量變到質(zhì)變,智能開始涌現(xiàn)
大模型,本質(zhì)上是在做什么?其實它就是在根據(jù)用戶的引導,推測應該輸出什么內(nèi)容。為什么叫大模型?回想一下聯(lián)結(jié)主義的初衷,即希望打造一個類似人類大腦的產(chǎn)物,而大模型則依然瞄向這個目標發(fā)展,且更進一步。
人類的大腦內(nèi)部有許多神經(jīng)元。在日常不斷學習的過程中,神經(jīng)元之間的連接會發(fā)生變化,有的變粗,有的變細,最后就會形成一個神經(jīng)網(wǎng)絡。在這種情況下,再通過大量的經(jīng)驗改造,大腦就可以處理很多問題。
與此類似,大模型有大量參數(shù),這就相當于人類的神經(jīng)元及其連接也需要許多數(shù)據(jù)來訓練、學習,在不斷訓練的過程中,參數(shù)會不斷跟隨調(diào)整,最后調(diào)整好的模型就類似于已經(jīng)發(fā)育良好的大腦,從而具有很強的語言推測等能力。
在訓練過程中,大模型也展現(xiàn)了“大”的特點:算力消耗大、數(shù)據(jù)量大、模型參數(shù)大等。
算力,即運算的能力。眾所周知,人類的思考計算依靠大腦。大模型的思考計算則依賴以GPU為主的各類處理芯片。思考都需要能量。就像大腦只占人類重量的2%,卻要消耗20%的能量。從OpenAI的技術(shù)報告看,當時訓練一次GPT-3大模型需要10的23次冪的計算。以一秒鐘計算60萬億次的英偉達H800顯卡為例,也需要1 000塊顯卡計算50天,對應的成本達到500萬~1 000萬美元。如果采用中國傳統(tǒng)打算盤的方式來計算,則需要全世界80億人計算100萬年,才能算一遍、訓練一次。因此,從這個角度來講,大模型的出現(xiàn)絕對稱得上是個奇跡,僅靠個體是絕對解決不了如此規(guī)模的計算問題的。
大模型需要的數(shù)據(jù),相當于人類需要學習的知識。大模型對數(shù)據(jù)的需求量非常大,例如GPT-3的預訓練數(shù)據(jù)量達到了45TB(太字節(jié)),[1]這相當于10萬人一輩子不睡覺才能達到的閱讀量。數(shù)據(jù)類型通常可以分為兩類——標注數(shù)據(jù)和無標注數(shù)據(jù),也就是經(jīng)過人工打標簽后的數(shù)據(jù)和未經(jīng)打標簽的原始數(shù)據(jù)。
接下來重點介紹模型參數(shù)。先引入一個數(shù)字例子。如圖1-6所示,假設平面上有三個點,我們希望可以根據(jù)這三個點的信息實現(xiàn)給定任意橫坐標X就能給出對應的縱坐標Y。顯然,最直接的思路是找到一個函數(shù)。

圖1-6 模型參數(shù)示意圖
如果規(guī)定只能用兩個參數(shù)來構(gòu)建函數(shù),那么可以用Y=aX+b來描述,a代表斜率,b代表截距,得到的則是一條直線,但這條直線無法準確表示三個點的關(guān)系,也就無法實現(xiàn)我們所希望的給定橫坐標X后就能準確預測對應的Y值。
那么,再增加一個參數(shù),我們可以用三個參數(shù)構(gòu)建一個一元二次函數(shù),這時就能準確地模擬出一條曲線。這條曲線不僅能覆蓋三個點的關(guān)系,而且能實現(xiàn)更加精準的預測。
以此類推,如果用更多參數(shù)來構(gòu)建函數(shù),那么就可以更精準地描繪一些更復雜的點的分布。這就說明,給的參數(shù)多了,預測能力就可以變強。當然,這個例子并不嚴謹,沒有考慮“過擬合”的情況,只是示意參數(shù)和模型能力之間關(guān)系的一個簡化表達。對于大模型而言,大參數(shù)意味著模型有更多的參數(shù)來適應數(shù)據(jù)中的細微差別和特征,能夠?qū)W習更加復雜的數(shù)據(jù)模式和函數(shù)關(guān)系,這就增強了模型的表達能力,使其能捕捉數(shù)據(jù)中更豐富的信息。
大模型參數(shù)增加的過程,也很有現(xiàn)實對照意義。就像一些生命體一樣,不太聰明的水豚,其大腦只有3億個神經(jīng)元,猴子的大腦有17億個神經(jīng)元,猩猩的大腦有90多億個神經(jīng)元,而作為智慧生物頂端的人類,則有幾百億個神經(jīng)元。到了百億的量級后,人類的智慧一下子就得到了大幅提升,出現(xiàn)了智慧的飛躍。
對于模型,也有類似的觀察,如圖1-7所示的幾個例子中,縱坐標表示模型的效果,橫坐標表示模型的參數(shù)規(guī)模,可以看出,在模型參數(shù)規(guī)模比較小的時候,隨著模型參數(shù)規(guī)模開始變大,模型效果的提升并不明顯,但在大模型的參數(shù)規(guī)模達到十億、百億、千億級別時,智能水平會從量變轉(zhuǎn)化為質(zhì)變,各類任務的效果出現(xiàn)了明顯的拐點,這也被科學家稱為“智能涌現(xiàn)”。



圖1-7 不同參數(shù)規(guī)模的大模型能力涌現(xiàn)
注:LaMDA是谷歌推出的一個面向?qū)υ挼纳窠?jīng)網(wǎng)絡架構(gòu),GPT-3是OpenAI研發(fā)的人工智能語言模型,Gopher和Chinchilla都是DeepMind推出的大模型,PaLM是谷歌發(fā)布的大模型。
資料來源:Jason Wei, Yi Tay, Rishi Bommasani, et al., “Emergent Abilities of Large Language Models” , 2022。
這里說的效果通常是指任務的準確度、問答匹配度、真實性、上下文關(guān)聯(lián)、復雜任務完成率等指標,而這些效果指標的提升依賴大模型的語言理解能力、生成能力、邏輯推理能力等。
但是,參數(shù)并不是越多越好。參數(shù)過多可能導致“過擬合”,也就是在給定的數(shù)據(jù)上表現(xiàn)很好,在新數(shù)據(jù)上表現(xiàn)很差,可以通俗理解為只會死記硬背,不能舉一反三。除了參數(shù)規(guī)模,模型的結(jié)構(gòu)或者說底層的函數(shù)形式也很重要。比如在前文圖1-6所示的例子中,如果只有一個一元多次函數(shù),無論用多大規(guī)模的參數(shù),所能描述的也只是一個平面上x和y的關(guān)系,無法刻畫三維空間的關(guān)系。大模型的發(fā)展,正是歸功于Transformer這樣的模型架構(gòu)。
簡單理解就是,與以往的人工智能相比,大模型的特點是量變引起了質(zhì)變。因此,也可以看到各家公司都在模型參數(shù)上展開“軍備競賽”,不斷挑戰(zhàn)更大規(guī)模。
二、泛化能力凸顯,比傳統(tǒng)人工智能適應更廣泛場景
能否舉一反三,是老師們經(jīng)常用來評價學生是否真正掌握了知識、是否有學習智慧的一個重要指標。在人工智能領(lǐng)域,這也是評價模型聰明與否的重要參考。所謂舉一反三,實際上就是泛化能力。大模型所具備的泛化能力,是傳統(tǒng)的人工智能技術(shù)所不具備的,這是一個非常重要的變化。
大模型是如何獲得泛化能力的?從技術(shù)來看,大量的訓練數(shù)據(jù)、大量的訓練,可以讓模型學會有效地提取有用的信息和特征。這些特征不僅包含數(shù)據(jù)的表象信息,還包含其背后的深層次規(guī)律和結(jié)構(gòu)。因此,大模型就可以將預訓練中學到的經(jīng)驗規(guī)律、知識策略等,遷移應用到嶄新、未知的場景中,提升模型的普適性。
眾所周知,人工智能的研發(fā)成本很高,良性的發(fā)展是進入商業(yè)場景,由商業(yè)客戶平攤成本。但如果人工智能只能應用于特定領(lǐng)域或行業(yè),那么這些客戶要平攤的成本就會很大,使用人工智能的意愿就會降低。而且,如果只有幾個領(lǐng)域使用,人工智能企業(yè)獲得的反饋也會更少,不利于后續(xù)研發(fā)。
傳統(tǒng)人工智能模型通常只具備某個領(lǐng)域的能力,例如只聚焦視覺、圖像識別、語音、文本等,沒有通用性。每一個產(chǎn)品去做應用開發(fā)的時候,都需要從頭做一遍,包括收集數(shù)據(jù)、訓練模型、驗證效果、開發(fā)應用,交付成本高,而且不容易規(guī)模化。因此,傳統(tǒng)人工智能公司經(jīng)營研發(fā)壓力大,客戶應用也不方便。
具備泛化能力后就不一樣了。如果人工智能落地一個應用是一場千米跑,在傳統(tǒng)人工智能技術(shù)下,其基礎(chǔ)能力或許只能覆蓋100米,剩下的900米都要定制開發(fā)。現(xiàn)在有了大模型,900米都是公用的,只有最后100米是要定制的。通用性提高意味著下游使用場景更豐富、客戶更多,要平攤的成本也會降低,客戶使用人工智能的意愿會加強。同時,更多場景也意味著人工智能研發(fā)企業(yè)可以獲得更多反饋,提升研發(fā)效率。這就確保了人工智能可以從實驗室走進商業(yè)場景,并且積累更多的數(shù)據(jù)進行不斷迭代,進入良性循環(huán)。
此外,大模型能夠適應新狀況,并能夠舉一反三,才會更貼近人類的實際生活與思維模式。因為再多的規(guī)則也是無法對現(xiàn)實做充分預判的,再多的數(shù)據(jù)也是無法對現(xiàn)實做充分模擬的。社會不斷發(fā)展,人類不斷探索,就必然會有新場景、新領(lǐng)域出現(xiàn)。如果人工智能不能具備持續(xù)學習的能力,那么不僅研發(fā)成本會增加,實際應用的吸引力也會大幅減弱。
因此,泛化能力讓大模型對客戶和研發(fā)企業(yè)的商業(yè)價值都大幅提升了。
三、精度顯著提升,人工智能做業(yè)務更可靠
模型精度在人工智能應用中扮演著至關(guān)重要的角色,它直接影響人工智能系統(tǒng)的性能、可靠性、用戶滿意度以及在實際應用中的廣泛性和深度。高精度才能更準確地反映數(shù)據(jù)的真實情況,提供更可靠的預測或決策支持。
大模型顯著提升了人工智能精度。第一,在算法層面,Transformer可以使模型捕捉長距離依賴關(guān)系,提升數(shù)據(jù)分析的準確性,自注意力機制也提升了信息整合能力。第二,大模型的數(shù)據(jù)質(zhì)量和數(shù)量都有大幅提升,傳統(tǒng)人工智能的訓練數(shù)據(jù)都在萬或者百萬的量級,而大模型采用的數(shù)據(jù)量動輒千億級別。而且,數(shù)據(jù)處理技術(shù)(包括清洗和特征提取)也得到了提升。第三,在預訓練之后還采用了微調(diào)等技術(shù),進一步提升了模型精度。第四,芯片的快速發(fā)展帶來算力提升,也使提升數(shù)據(jù)量、提升精度變得更為可行。
算法、算力、數(shù)據(jù)三要素共同發(fā)力,使人工智能的精度不斷提升。
四、知識相關(guān)能力,超越普通人
人工智能能力的提升,在棋類競賽領(lǐng)域體現(xiàn)得很明顯。1997年,IBM的超級計算機深藍(Deep Blue)以3.5∶2.5的微弱優(yōu)勢戰(zhàn)勝了當時的世界國際象棋冠軍加里·卡斯帕羅夫。而從2016年起,谷歌旗下的AlphaGo(阿爾法圍棋)就先后以4∶1大勝李世石、3∶0完勝柯潔的戰(zhàn)績展現(xiàn)了實力。但畢竟下棋還是娛樂項目,只有在生產(chǎn)力領(lǐng)域超越人類,才更具商業(yè)價值。
首先,人類的知識是不連續(xù)的。無論華佗有多厲害,總結(jié)了多少經(jīng)驗,他都沒有辦法把這些經(jīng)驗原封不動地傳給后人。傳承的一個方法是寫書,但寫書必然會有信息損失,后人再去閱讀時因為理解力不足等又會有折損。因此,很長一段時期內(nèi),人類得到的知識和經(jīng)驗,沒有辦法非常有效地傳承下去。但大模型改變了這個狀況。大模型具備千億參數(shù),可裝載數(shù)據(jù)量大,而且所有人都可以基于此再訓練自己行業(yè)的小模型,實現(xiàn)有效傳承。
其次,人類交互的帶寬比較小。我們面對面聊天,一分鐘說一兩百字,聊一個小時最多才說一萬多字。折算成機器數(shù)據(jù),也就是幾十KB(千字節(jié)),可見,人和人之間聊天的帶寬是很低的,而當下機器和機器之間的網(wǎng)絡帶寬則擴大了萬億倍,例如,英偉達Blackwell(人工智能芯片與超級計算平臺)GPU配備G7內(nèi)存,可提供高達1.8TB/s的顯存帶寬。
從這個角度來講,大模型既能傳承知識,又能高效交流,在內(nèi)容創(chuàng)作、語言理解等方面也已經(jīng)超越了普通人。
2023年高考結(jié)束后,全網(wǎng)測試各家大模型在語文作文方面的創(chuàng)作能力。根據(jù)《第一財經(jīng)》的測試以及邀請多名高考閱卷老師進行打分,結(jié)果表明,大模型的平均分數(shù)為42分,相當于滿分60分70%的水平。
整體來看,在文本生成、語義理解、信息提取、語言翻譯等領(lǐng)域,大模型的表現(xiàn)都超越了大部分普通人。而這些能力對應的使用場景則包括營銷方案設計、翻譯、智能客服、高效辦公、智能財務分析、輔助學習、企業(yè)培訓等,覆蓋了多個商業(yè)剛需。
例如,在研究領(lǐng)域,面對信息浩瀚、數(shù)量繁多的研究報告,以前需要人工快速瀏覽,任務量巨大;但有了大模型之后,就可以先由大模型發(fā)揮信息提取的能力,快速整理出核心內(nèi)容,如果用戶認為有必要,則再進行相應的詳細閱讀,這大幅提高了處理文本的效率。
再如,在企業(yè)內(nèi)部培訓領(lǐng)域,以往的模式是定期組織相應的培訓班進行集中學習,但是員工有可能還是會忘記內(nèi)容,影響實際操作。有了大模型,員工可以隨時隨地學習相關(guān)內(nèi)容,而且大模型具備“千人千面”的效果,可以根據(jù)員工回答的內(nèi)容有針對性地進行提升。即使在實際操作中員工遺忘了一些知識,也可以借助大模型進行高效搜索。這對于有較多外部一線實操員工的企業(yè)(尤其是藍領(lǐng)較多、地域較廣、培訓不方便的企業(yè))非常有用。
五、從文本到多模態(tài),擴展應用場景
大模型并沒有局限于語言,而是基于語言的進步經(jīng)驗,正實現(xiàn)從語言到多模態(tài)(文本、圖像、音頻、視頻等)的提升,這也是人工智能領(lǐng)域的一個重要發(fā)展趨勢。在海外,2022年下半年,Midjourney(人工智能繪畫工具)、Stability AI(人工智能企業(yè))相繼發(fā)布了文生圖(Text-to-Image)應用,可以根據(jù)用戶輸入的文字生成相應的圖片;2024年2月,OpenAI發(fā)布了文生視頻(Text-to-Video)多模態(tài)大模型Sora,可以根據(jù)用戶輸入的文本生成相應的視頻,推動多模態(tài)向前一躍。在多模態(tài)的技術(shù)發(fā)展潮中,國內(nèi)公司也沒有缺席。
在文生圖方面,傳統(tǒng)的文生圖質(zhì)量仍較低,經(jīng)常會有“一眼假”、不符合邏輯的狀況,這也被稱為大模型的幻覺。如果不能消除幻覺,文生圖就只能停留在自娛自樂的狀態(tài)。因此,2024年,百度自研了iRAG(檢索增強生圖)技術(shù),把百度搜索的億級圖片資源和大模型基礎(chǔ)能力相結(jié)合,大幅提升了文生圖的真實性,也意味著文生圖更具有商業(yè)性。
2024年4月,生數(shù)科技公司發(fā)布了國內(nèi)首個長時長、高一致性、高動態(tài)性的視頻大模型Vidu。該大模型可以支持多種類型的生成方式,包括文生視頻、圖生視頻、參考生視頻等。生數(shù)科技作為清華大學人工智能研究院孵化的創(chuàng)業(yè)公司,公司內(nèi)部的人才密度非常高,團隊在貝葉斯機器學習和多模態(tài)大模型領(lǐng)域積累了多個原創(chuàng)性成果,從而可以實現(xiàn)文生視頻的精髓:對現(xiàn)實世界物理規(guī)律進行準確模擬,并提升視頻風格和主體的一致性。2025年初發(fā)布的Vidu 2.0版本的生成速度大幅提升,用戶僅需花費5分鐘,即可生成長達1分鐘的視頻素材。
多模態(tài)大模型正在日新月異地發(fā)展。那么,多模態(tài)有什么用呢?以人類獲取信息做類比,人類有五官,獲取信息的途徑包括視覺、聽覺、觸覺、嗅覺、味覺等。大模型的多模態(tài)則相當于“多感官”,通常情況下,單一感官弱于多感官。一方面,不同模態(tài)的數(shù)據(jù)可以相互補充,避免了單一模態(tài)數(shù)據(jù)的局限性,從而使模型獲取信息的能力更加全面、精準。同時,多模態(tài)可以提供更豐富的上下文信息,提升大模型的學習能力和對復雜問題的理解、處理能力。另外,多模態(tài)能力也使大模型和人類的交互更加便捷,更符合人類的習慣,也更具有普及性。畢竟,和語音、視頻輸入的人群相比,文本輸入的人群基數(shù)要大得多。
由此,多模態(tài)大模型更接近人類的感知和認知方式,也打開了更多應用場景。
例如,在營銷領(lǐng)域,文生圖可以生成高質(zhì)量海報,傳統(tǒng)汽車行業(yè)拍攝場景宣傳海報時動輒需要十幾萬元,而用了iRAG技術(shù)后,創(chuàng)作成本接近于零。另外,數(shù)字人、短視頻都是非常好的“種草”方式,但無論是數(shù)字人還是短視頻的拍攝、制作,門檻都不低。借助多模態(tài)能力,可以一句話生成3D(三維)數(shù)字人,也可以繼續(xù)生成短視頻,從而為營銷助力。這部分內(nèi)容會在第四章詳細闡述。
在餐飲領(lǐng)域,例如海底撈,基于百度智能云一見視覺大模型平臺,可以進行無死角的視頻人工智能分析,實時對海底撈全國1 300多家門店的員工服務規(guī)范進行打分,從而形成對所有門店經(jīng)理的量化排名與考核,提升管理效率,改善消費者體驗。
在醫(yī)療診斷領(lǐng)域,綜合醫(yī)學影像、病歷文本等多模態(tài)數(shù)據(jù),可以更準確地診斷疾病,降低誤診率。
在客服領(lǐng)域,文字溝通有時候會顯得十分冰冷,通過數(shù)字人和語音溝通,就會增加用戶的親切感。而且,多模態(tài)能力也允許用戶以上傳圖片、視頻的方式來表述問題,通過準確抓取相關(guān)信息,在降低用戶表達門檻的同時,可以快速解決問題。
在交通領(lǐng)域,采用多模態(tài)大模型能力后,自動駕駛可以不再單純依靠前置規(guī)則,而可以通過實時的圖像采集進行判斷、執(zhí)行,交通管理也可以因為對圖像、視頻等信息處理能力的提升而得到改善。
在具身智能機器人領(lǐng)域,多模態(tài)能力可以讓機器人更像人,通過視覺、觸覺和聲音等多模態(tài)傳感器獲取信息并協(xié)作處理,共同完成復雜的生產(chǎn)任務。諸如此類的應用場景還有很多,在第五章會更詳細地闡述。
大模型多模態(tài)能力將在2025年得到進一步發(fā)展,加速人工智能的普及。
大模型的獨特之處包括:智能涌現(xiàn);泛化能力,適用場景更多;精度不斷提升,更加可靠;文本能力超群,而且具備從文本到多模態(tài)的擴展。
智能涌現(xiàn):當一個系統(tǒng)達到一定規(guī)模或復雜度時,會出現(xiàn)一些在較小規(guī)模或簡單系統(tǒng)中不可見的新特性或能力,俗稱“跳躍式拐點”。
泛化能力:不僅在訓練數(shù)據(jù)上有良好的表現(xiàn),在訓練數(shù)據(jù)之外的新數(shù)據(jù)、新場景、新領(lǐng)域中也展現(xiàn)了良好的預測和處理能力,可以舉一反三。
精度提升:算法層面可以捕捉長距離依賴關(guān)系,自注意力機制提升信息整合能力;數(shù)據(jù)質(zhì)量和數(shù)量都有大幅提升;采用微調(diào)等技術(shù),進一步提升模型精度。
文本能力:包括文本生成、語義理解、信息提取、語言翻譯等,有文本的地方,就可以發(fā)揮大模型的功效。
[1] 資料來源:《“炫富”的GPT-3來了:45TB數(shù)據(jù),1 750億個參數(shù),還會三位數(shù)加減法》,量子位,2020年6月1日。
- 人工智能改變世界:走向社會的機器人
- 2019年華北五省(市、自治區(qū))大學生機器人大賽:人工智能與機器人創(chuàng)意設計賽論文集
- 人工智能:從科幻中復活的機器人革命
- 不止DeepSeek!:職場AI效率提升一本通
- 深度學習時代的計算機視覺算法
- AI:人工智能的本質(zhì)與未來
- 如何創(chuàng)造可信的AI
- 聯(lián)邦學習
- 機器學習實踐指南:案例應用解析
- 人工智能數(shù)學基礎(chǔ)
- 金融智能:AI如何為銀行、保險、證券業(yè)賦能
- Python神經(jīng)網(wǎng)絡編程
- AIoT系統(tǒng)開發(fā):基于機器學習和Python深度學習
- 智能機器人養(yǎng)成記:開發(fā)人類友好型機器人
- 深度學習與神經(jīng)網(wǎng)絡