1.3 大模型時代下的人工智能
大模型(Large Model)又稱基礎模型(Foundation Model),是指一類集成了海量參數與復雜結構的機器學習架構,它們擅長駕馭巨量數據,勝任各類復雜任務。在媒體聚光燈下頻繁亮相的大語言模型(Large Language Model,LLM)便是大模型家族中璀璨的一員,它在自然語言處理、文本創作及智能對話等多個領域展現了卓越的性能,產生了廣泛與深遠的影響[14]。最新研究發現,當模型參數量與訓練數據集規模達到某一臨界閾值后,模型在特定任務上的表現將實現質的飛躍,并自發地展現出諸多原先難以預見的復雜能力與特性。這種從海量數據中自動萃取并創造出新層次特征與模式的能力,被形象地稱為“涌現能力”,它成為大模型相較于小型模型最為本質的區別與優勢。大模型的發展,無疑是人工智能領域近年來最為顯著的進步之一,它不僅推動了AI技術的飛速發展,更深刻地影響了專業知識、行業發展、社會進步,以及就業和經濟等多個方面。
1.3.1 ChatGPT——走向通用性AI之路
ChatGPT是由OpenAI公司研發的先進聊天機器人程序,自2022年11月30日面世以來,便以其卓越的對話能力和自然語言處理技術引起了廣泛關注。ChatGPT的核心是一個名為GPT(General Pre-trained Transformer)的深度學習預訓練Transformer模型,它通過在海量的文本數據上進行預訓練來學習語言的語法、詞匯和一定范圍內的世界常識。在訓練階段,模型通過自監督學習來預測句子中的下一個詞或填補句子的空白。這種訓練方式使得ChatGPT能夠掌握并理解語言結構,并進一步學習蘊含在文本信息中的知識。此外,最新的GPT-4中還引入了多模態功能,模型可以通過聯合處理圖像和文本數據進行訓練,從而理解和生成與圖像相關的文本描述。圖1-9分別展示了ChatGPT在文本問答和圖像理解上的能力。

圖1-9 ChatGPT進行文本問答(左)與圖像內容總結(右)
ChatGPT不僅是一個簡單的聊天工具,還能夠執行多種語言任務,包括但不限于輔助撰寫論文、郵件、腳本、文案,以及進行翻譯與編寫代碼等,它代表了人工智能在理解和生成自然語言方面的重大進展。圖1-10展示了利用ChatGPT編寫求解最大公約數的代碼。2024年,ChatGPT的語音功能和桌面版應用程序的推出,進一步擴展了其應用范圍,使得用戶可以更加便捷地與AI進行交互。
雖然ChatGPT具有強大的自然語言處理能力,但其輸出質量在很大程度上取決于用戶輸入的提示詞。通過合理的提示詞設計,用戶可以更好地引導模型生成連貫、準確且有用的回答。思維鏈(Chain of Thought,CoT)就是一種指導用戶設計提示詞的技術。如圖1-11所示,這個技術通過要求模型將一個復雜問題逐步分解為一個個子問題并依次進行求解,并顯式輸出中間每一步的推理步驟,從而模擬人類的思考過程,生成更復雜和精確的輸出。CoT大幅度提高了LLM在復雜推理任務上的表現,并且輸出的中間步驟方便使用者了解模型的思考過程,提高了大模型推理的可解釋性。目前,思維鏈推理已經成為大模型處理復雜任務的常用手段。

圖1-10 使用ChatGPT編寫代碼

圖1-11 標準提示與思維鏈提示對比
除了ChatGPT外,很多國產的大模型同樣具有強大的性能。例如智譜AI的智譜清言模型基于GLM模型開發,具備內容創作、圖像理解、信息歸納總結等能力;科大訊飛的星火大模型則在語音識別和語音合成等任務上展現出卓越的效率和優秀的表現力;百度的文心一言大模型有著出色的聯網搜索能力,在文學創作、問題解答等方面表現出色;阿里的通義千問大模型(見圖1-12)有著強大的思維啟發能力,能夠對復雜問題進行拆解,幫助用戶啟發創意,輔助用戶學習各種知識;月之暗面(Moonshot AI)的Kimi Chat大模型(見圖1-13)則專注于長文本處理,支持對20萬漢字的長文本進行文檔總結和內容拆解。

圖1-12 使用通義千問大模型學習C++

圖1-13 使用Kimi Chat大模型進行論文總結
大模型等技術上的突破性成就讓研究人員開始暢想通用人工智能的道路。畢竟,如果一個AI系統能夠理解和生成人類語言,那么獲取知識、進行推理,甚至產生創意似乎都不再是遙不可及的夢想。大模型的出現無疑開啟了AI應用的新紀元,從智能寫作助手到代碼自動生成,從虛擬客服到個性化教育,這些大模型正在悄然改變著人們的工作和生活方式。它們就像是給每個人配備了一位能干的程序員朋友,隨時準備搜集并生成信息、回答問題、提供建議,抑或只是陪你聊聊天。大模型的出現釋放出了無窮的可能性,它們正在重塑人們與技術交互的方式,挑戰人們對智能的理解,也迫使人們思考人類在AI時代需要扮演的角色。
1.3.2 百花齊放的多模態大模型
盡管大語言模型在處理文本數據方面表現出色,但它們無法直接處理圖像、視頻、音頻等多種模態信息之間的相互作用,也無法充分理解不同模態之間的上下文關系。因此,在一些需要跨模態理解的任務中,如圖像問答、視頻描述等,大語言模型的表現往往不盡如人意。而且,隨著模型和數據集規模的不斷擴大,傳統的多模態模型訓練會產生巨大的計算成本。恰好,大語言模型的預訓練與微調技術的突破讓人們看到了新的解決方案,可以利用現成的預訓練單模態基礎模型,特別是大語言模型,將其與其他模態的模型結合起來,實現協同推理。這一思路催生了一個新的研究領域:多模態大模型(Large Multimodal Model,LMM)。它通過融合多種模態的信息,能夠在更廣泛的場景中提供更全面、更準確的理解和生成能力。這些模型通過大規模的數據訓練,學習如何聯合理解和生成跨多種模態的信息,被視為通往通用人工智能的下一個重要步驟。多模態大模型的關鍵能力在于整合并理解不同的數據格式。與在處理和生成文本數據方面有專長的大語言模型相比,多模態大模型則可以應用于需要理解和整合不同類型數據信息的任務。
1.以文為引,化影成真——文生視頻大模型
早期文生視頻(Text to Video,T2V)模型通常采用簡單的編碼-解碼結構在較小規模的人工標注數據上進行訓練,并將文本嵌入和視頻幀獨立處理,缺乏對文本與視頻之間復雜關系的深度理解。因此,這些模型生成的視頻在視覺效果上往往較為粗糙,缺乏真實感,而且無法生成高分辨率、細節豐富的視頻。此外,早期T2V模型在生成多幀視頻時,幀與幀之間的過渡不自然,導致視頻中的動作顯得不連貫或僵硬。
2024年,OpenAI公司發布人工智能文生視頻大模型Sora,它是在OpenAI的文本到圖像生成模型DALL-E基礎上開發而成的,能夠根據用戶的文本提示創建最長60s的逼真視頻。Sora展現了其深度模擬真實物理世界的能力,能夠生成包含多個角色和特定運動的復雜場景。Sora采用了更為先進的多模態融合架構,通過將文本和視覺信息深度結合,模型能夠更好地理解文本的復雜語義,并將其準確映射到視頻生成過程中,使得生成的視頻能夠精確反映文本描述的內容和細節。Sora還采用了更復雜的生成網絡和圖像增強技術,如高分辨率生成網絡(High-Resolution Generation Network)和超分辨率重建(Super-Resolution Reconstruction)技術。通過多層次的生成對抗網絡(Generative Adversarial Network,GAN),Sora能夠生成高分辨率且細節豐富的視頻,克服了早期模型在生成質量上的缺陷。此外,為了保證視頻幀與幀之間的連貫性,Sora還引入了時間一致性模塊,通過平滑處理相鄰幀之間的過渡,確保動作和場景在時間軸上自然流暢。
此外,得益于在大規模多模態數據集上的自監督學習過程,Sora不僅學習了廣泛領域的文本-視頻映射,還在未標注的數據中挖掘潛在的模式,顯著提升了模型的泛化能力。這使得Sora不僅能夠從靜態的文本描述中提取信息,并將其映射到視頻生成過程中,還能夠動態理解文本的上下文和隱含意義。例如,對Sora模型輸入這樣一段文字提示:“一個時髦的女人走在東京的街道上,到處都是溫暖發光的霓虹燈和城市標志。她穿著皮夾克、長裙、靴子,拿著一個錢包,戴著太陽鏡,涂著口紅。她走起路來自信而隨意。潮濕和反光的街道創造了一個彩色燈光的鏡子效果。許多行人走來走去。”Sora便會對文本描述進行深入理解并生成對應的60s的視頻,圖1-14展示了其中一幀的生成效果,畫面的完整程度、畫面質量、細膩程度都堪稱完美。完整視頻詳見https://openai.com/index/sora/。
然而,Sora的出現也引發了一些法律風險和監管問題。例如,Sora作品是否存在侵犯他人著作權的可能,成為業界關注的焦點。同時,Sora生成的視頻內容可能涉及對現有作品的再創作,這也在一定程度上挑戰了傳統的版權保護框架。Sora的問世也對視頻制作行業帶來了潛在的沖擊。一方面,Sora的高效率和成片效果可能會降低視頻制作的門檻,激發更多人的創造力;另一方面,Sora的發布也引發了對濫用視頻生成技術的擔憂,擔心AI生成的“深度偽造”內容可能導致虛假和錯誤信息的廣泛傳播。

圖1-14 Sora生成的視頻中的一幀
在OpenAI發布Sora大模型之后,國內多家公司也在積極布局文生視頻大模型,如由快手研發的可靈(Kling)大模型(見圖1-15)。可靈大模型主體采用Diffusion Transformer架構,并結合3D時空聯合注意力機制更好地建模了復雜時空運動,從而生成符合運動規律并具有較大幅度的視頻內容,同時能夠符合運動規律。得益于高效的訓練基礎設施、強大的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達2min的視頻,且幀率達到30fps。而在訓練策略上,可靈大模型也積極追求創新,通過采用可變分辨率訓練策略,讓模型在推理過程中可以做到同樣的內容輸出多種多樣的視頻寬高比,滿足更豐富場景中的視頻素材使用需求。

圖1-15 可靈大模型生成的視頻中截取的一張圖片。提示詞:“特寫鏡頭,清晨的陽光,一只鸚鵡站在郵箱上,鸚鵡有著密集光滑的羽毛、彎曲的喙,背景是嘈雜的街道。”
Sora引領視頻內容創作步入了新紀元,為創意產業帶來了無限可能。無論是Sora大模型還是可靈大模型,又或者與之類似的DreamFusion[15]、ProlificDreamer[16]等文生3D模型,以及Stable Diffusion[17]、DALL-E等文生圖模型,都可以讓用戶將自己的心中所想快速地變成實際的畫面,讓想象力變得具象化。可以預見的是,這些生成類大模型在不久的將來一定會成為藝術工作者、視覺設計師和廣告工作者們必不可少的輔助工具。
2. AI觀天識象術——盤古氣象大模型
隨著全球氣候變化的加劇和極端天氣事件的頻發,提高天氣預報的精度和時效性變得尤為重要。傳統的數值天氣預報方法雖然取得了一定的成果,但在處理復雜的氣象數據和捕捉細微的氣象變化方面仍存在不足。在人工智能驅動的氣象科學領域,盤古氣象大模型通過深度剖析海量氣象數據,提供了更為精準且及時的天氣預報服務,顯著增強了人類應對自然災害的預見能力。盤古氣象大模型是由華為云研發的創新AI氣象預報系統,是AI4Science領域的代表性技術突破。作為首個精度超過傳統數值預報方法的AI模型,盤古氣象大模型不僅在預測速度上實現了革命性的提升——提速高達10000倍以上,而且在預測精度上也展現出顯著的優勢。圖1-16所示為盤古氣象大模型發布會現場。
AI4Science,即“人工智能驅動的科學研究”(AI for Science),是一個新興領域,它利用人工智能技術來解決科學研究中復雜的問題和挑戰。AI4Science是科學發現的第五范式,它結合了前四種范式(經驗科學、理論科學、計算科學、數據科學)的優勢,通過人工智能和計算科學的融合,加速自然規律的發現。隨著計算能力的快速增長和機器學習算法的進步,這一領域得到了廣泛關注。
盤古氣象大模型的設計思路十分明確:由于氣象數據與圖像數據之間存在諸多的相似之處,那能否利用當前計算機視覺(Computer Vision,CV)領域的大模型對氣象數據進行分析與預測?答案是肯定的。但是直接將現有的CV大模型架構應用于氣象預測還有諸多不足之處。在前人研究成果(如英偉達的FourCastNet)的基礎上,盤古研究團隊發現,導致CV大模型預報精度不足的主要原因有兩個:①現有的氣象預報模型都是基于2D神經網絡的,無法很好地處理不均勻的3D氣象數據;②AI方法缺少數學物理機理約束,因此在訓練的迭代過程中會不斷累積迭代誤差。為此,盤古氣象大模型設計了3D Earth-Specific Transformer(3D EST)模塊來處理復雜的不均勻3D氣象數據,并且使用層次化時域聚合策略來減少預報迭代次數,從而減少迭代誤差,大幅提升了模型預測的準確率。該大模型僅需在一塊V100顯卡上運行1.4s,就能完成24h全球氣象的預報,位勢、濕度、風速、溫度、海平面氣壓等復雜信息可以在一塊屏幕上一目了然。

圖1-16 盤古氣象大模型發布會現場
2023年10月,盤古氣象大模型成功預測了颶風“奧帝斯”的實際運行路徑,其預測曲線與颶風實際運行路徑幾乎一致,精度達到了氣象預報的新高度。這一預測結果展示了盤古氣象大模型在復雜氣象條件下的卓越性能。
盤古氣象大模型的研究成果[18]已在國際學術頂級期刊Nature上發表,獲得了審稿人的高度評價:“華為云盤古氣象大模型讓人們重新審視氣象預報模型的未來,模型的開放將推動該領域的發展。”這也是近年來中國科技公司首篇作為唯一署名單位發表的Nature正刊論文。隨著盤古氣象大模型的不斷優化和升級,其在氣象預報領域的應用前景廣闊。例如,新增的降水預測功能將進一步提升預測精度,對暴雨紅色預警的預測從提前3小時升級至提前24小時。此外,華為云與泰國氣象局聯合開發的泰國盤古氣象大模型,以及與深圳市氣象局合作打造的區域氣象預報大模型,是盤古氣象大模型在國際和地區氣象服務中的重要應用實例。總之,盤古氣象大模型的推出,不僅代表了華為云在AI氣象預報領域的技術實力,也為全球氣象預報服務帶來了創新和突破,預示著未來氣象預報將更加精準、高效。
3.萬物皆可分——分割大模型SAM
SAM(Segment Anything Model),作為Meta公司的一項里程碑式創新成果,在計算機視覺領域開創了前所未有的圖像分割新紀元。設想一下,只需指尖輕點或隨意勾勒幾筆,計算機便能即時洞悉圖像奧秘,精準分離并識別出畫面中的任意目標物體——這一設想在SAM技術[19]的加持下,已不再是遙不可及的科幻夢想。而且SAM具有令人驚嘆的零樣本學習能力,即便面對全新、未見過的物體類別,也能僅憑用戶提供的簡單線索,迅速勾勒出物體的精確輪廓。無論是自然界中的飛禽走獸、繁茂植被,還是日常生活中琳瑯滿目的物品,SAM皆游刃有余,展現出其驚人的適應性和靈活性。圖1-17直觀地展示了SAM在圖像分割任務中的卓越表現,每一筆細膩的分割線條都是其強大實力的見證。這一技術突破徹底顛覆了傳統圖像處理的認知,無疑為計算機視覺領域注入了新的活力,開啟了智能圖像處理的新篇章。
在SAM橫空出世之前,針對特定圖像任務構建高精度的目標分割模型,往往依賴于技術專家對海量數據進行煩瑣且成本高昂的手工標注,這一過程不僅耗時費力,還極大地限制了模型開發與迭代的效率。SAM的問世則徹底革新了這一領域的運作模式。SAM內置的數據標注引擎,以其強大的自動化能力,在浩瀚的圖像海洋中自動生成精確的分割標簽,隨后通過簡單的人工審核流程,這些標簽便融入訓練集,為SAM的持續優化與升級提供源源不斷的數據支撐。這一循環訓練機制不僅催生了包含數億張圖像及其精準分割標簽的龐大數據集SA-1B,更讓SAM在訓練過程中不斷汲取新知識,深化其對圖像特征與模式的理解,從而實現分割準確性與泛化性的飛躍。自Meta推出SAM以來,其影響力已跨越學科界限,在科學探索、醫學診斷,乃至眾多工業領域激發出新的活力。眾多知名數據標注平臺紛紛將SAM納入其生態系統,將其作為圖像對象分割標注的首選工具,這一舉措節省了數百萬小時的人工注釋時間。SAM的應用場景廣泛而深遠,從海洋生態保護的珊瑚礁精細分割與聲吶圖像智能分析,到緊急救援中的衛星圖像快速解譯,從醫療領域細胞圖像的精準分割,到農業中作物生長分割和病害檢測,SAM以其卓越的性能正在發揮著越來越重要的作用。

圖1-17 使用SAM分割場景中的物體
盡管SAM在捕捉圖像中對象目標方面展現出了優越能力,但必須認識到,圖像僅是瞬息萬變現實世界的靜態縮影。為了更全面地捕捉動態場景的本質,Meta隨后推出了SAM 2[20],這一創新成果在統一的框架下,實現了基于用戶動態提示的圖像/視頻智能分割。與SAM側重于靜態圖像的處理不同,SAM 2允許用戶在視頻的任意幀中靈活插入輸入提示(如點、框或初始掩碼),以此界定并預測目標對象的時空掩碼。SAM 2的核心優勢在于其即時響應與高效傳播機制:一旦接收到用戶提示,它便能迅速在當前幀上生成初始掩碼,并沿時間軸擴展至整個視頻序列,精準描繪出目標對象的動態輪廓。更令人矚目的是,用戶還能在視頻播放過程中隨時添加額外提示,對初始掩碼進行迭代優化,這一過程可按需重復,直至達到用戶期望的精確度。這極大地增強了交互的靈活性與結果的準確性。從架構層面看,SAM 2不僅是SAM在視頻領域的自然延伸,更是對圖像與視頻分割效率的一次革命性提升。相比SAM,SAM 2在標注速度上實現了約6倍的提升,并將所需的人機交互減少了大約3成,這極大地提升了其作為數據標注工具的效率。
尤為值得一提的是,鑒于3D圖像本質上可被視為一系列連續變化的2D圖像(即特殊視頻),SAM 2的推出也為3D圖像分割領域提供了新的解決思路,預示著其在復雜空間數據解析中的廣闊應用前景。不僅如此,許多重要的工程應用也都需要在視頻數據和3D數據中進行準確的對象分割,例如混合現實、機器人、醫療手術機器人、自動駕駛汽車和視頻編輯等。在工業領域,如自動駕駛汽車中使用的系統,它可以為視覺數據提供更快的注釋工具,以訓練下一代計算機視覺系統。對于內容創作者來說,SAM 2可以在視頻編輯中實現創意應用,并為生成視頻模型增加可控性。圖1-18生動地展示了SAM 2在視頻處理中的卓越表現,進一步印證了其在動態場景理解和分析中的非凡能力。正如社交網站Facebook的創始人兼首席執行官馬克·艾略特·扎克伯格(Mark Elliot Zuckerberg)指出的那樣,SAM與SAM 2等開源AI大模型“比任何其他現代技術都更有潛力提高人類生產力、創造力和生活質量”。

圖1-18 第一行使用SAM 2進行視頻數據標注,第二行使用SAM 2輔助視頻編輯實現個性化創作
然而,大模型技術的發展也面臨著諸多挑戰。排在首位的便是計算資源消耗問題,訓練一個通用基礎大模型便要消耗數百萬度電。此外,模型的偏見、幻覺等問題,以及可能被濫用以生成虛假信息等倫理問題,都是亟待解決的難題。這一次,我們無法斷然篤定地回答AI發展的持續性問題,但至少有一點是確定的:AI的發展歷程告訴我們,科技的進步往往不是一帆風順的,我們需要保持熱情,同時也要腳踏實地地不斷探索和創新。
大模型的偏見是指模型在處理數據時表現出的某種偏好或傾向性,這種偏好可能導致模型在特定情況下做出不公平或不準確的預測。幻覺問題則是指模型在生成內容或決策時,可能會產生一些看似合理但實際上是錯誤或虛假的內容,這通常源于模型的過擬合或訓練數據的不足。