- 制造業(yè)大模型的構(gòu)建與實(shí)踐
- 郭秉義
- 1649字
- 2025-02-21 17:00:57
1.2.2 大模型的基本能力
大模型在不同的任務(wù)領(lǐng)域中展現(xiàn)出了非凡的能力。
1.自然語(yǔ)言理解與生成
大語(yǔ)言模型最顯著的能力在于自然語(yǔ)言的理解與生成。以GPT、BERT為代表的大語(yǔ)言模型,在文本生成、語(yǔ)義理解、問(wèn)答系統(tǒng)、機(jī)器翻譯等方面取得了突破性進(jìn)展。它們可以理解和生成高質(zhì)量的文本內(nèi)容,并且能夠基于上下文進(jìn)行復(fù)雜推理。
(1)自然語(yǔ)言理解
大語(yǔ)言模型能夠通過(guò)深度學(xué)習(xí)技術(shù)對(duì)輸入的文本進(jìn)行深入分析和理解,捕捉其中復(fù)雜的語(yǔ)義信息、情感色彩、邏輯結(jié)構(gòu)及潛在含義。它們?cè)谔幚砣鐔?wèn)答、文檔摘要、語(yǔ)義解釋、情感分析、實(shí)體識(shí)別、關(guān)系抽取等任務(wù)時(shí)表現(xiàn)出優(yōu)秀的性能。例如,當(dāng)要求大模型對(duì)一段話進(jìn)行翻譯時(shí),效果相當(dāng)不錯(cuò)。
用戶(hù)提問(wèn):

大模型的回復(fù):

(2)自然語(yǔ)言生成
基于海量訓(xùn)練數(shù)據(jù),大語(yǔ)言模型可以自動(dòng)生成連貫、流暢且具有一定創(chuàng)造性的文本內(nèi)容,可以完成文章寫(xiě)作、故事創(chuàng)作、對(duì)話模擬、代碼編寫(xiě)以及詩(shī)歌或歌詞創(chuàng)作等任務(wù)。這些模型可以根據(jù)給定的提示詞或上下文信息生成全新的文本段落,而且生成的內(nèi)容往往具備高度的邏輯一致性與合理性。例如,當(dāng)用戶(hù)用自然語(yǔ)言要求生成一個(gè)算法時(shí),大模型也能很好地完成任務(wù)。
用戶(hù)提問(wèn):

大模型的回復(fù)如下。可以看到,大模型能夠提升開(kāi)發(fā)者的編程效率。


2.計(jì)算機(jī)視覺(jué)任務(wù)
視覺(jué)大模型是在計(jì)算機(jī)視覺(jué)領(lǐng)域具有大規(guī)模參數(shù)量和廣泛應(yīng)用場(chǎng)景的深度學(xué)習(xí)模型。這些模型通過(guò)處理大量圖像數(shù)據(jù),可以完成對(duì)圖像內(nèi)容的理解、識(shí)別、分割、生成等多種任務(wù)。例如,Segment Anything Model(SAM)是由Meta AI推出的開(kāi)源的圖像分割任務(wù)模型,它借助了自然語(yǔ)言處理任務(wù)中的提示詞思路,通過(guò)給圖像分割任務(wù)模型提供提示詞來(lái)完成對(duì)任意目標(biāo)的快速分割,如圖1-2所示。
3.文生圖
文生圖是指根據(jù)用戶(hù)輸入的自然語(yǔ)言文本描述,自動(dòng)生成與該描述內(nèi)容相匹配的圖像。例如,要求大模型畫(huà)一個(gè)變形金剛,大模型能夠生成不錯(cuò)的效果圖,如圖1-3所示。這一技術(shù)是AIGC(AI Generated Content,人工智能生成內(nèi)容)領(lǐng)域的重要組成部分。文生圖是大模型在跨模態(tài)領(lǐng)域中的重要應(yīng)用方向,橫跨文本和圖片兩種不同模態(tài)。

圖1-2 SAM示例

圖1-3 文生圖示例
文生圖的技術(shù)路線主要有生成對(duì)抗網(wǎng)絡(luò)(GAN)、擴(kuò)散模型(Diffusion Model)和變分自編碼器(Variational Auto Encoder,VAE)。目前,擴(kuò)散模型與Transformer架構(gòu)相結(jié)合是文生圖的主流路線。在百花齊放的文生圖應(yīng)用中,DALL·E2、Stable Diffusion、Midjourney等幾款應(yīng)用效果最好,也最受歡迎。
4.文生視頻
文生視頻是指根據(jù)用戶(hù)提供的文本描述或腳本內(nèi)容自動(dòng)生成連續(xù)的視頻片段,包括動(dòng)態(tài)的畫(huà)面、合理的場(chǎng)景切換以及連貫的動(dòng)作等。這種技術(shù)結(jié)合了自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)和生成模型等多種AI技術(shù),在理解文本含義的基礎(chǔ)上構(gòu)建相應(yīng)的視覺(jué)場(chǎng)景,并模擬真實(shí)的時(shí)空變化來(lái)生成視頻內(nèi)容。相較于文生圖技術(shù),文生視頻更為復(fù)雜,因?yàn)樗粌H要考慮靜態(tài)圖像生成,還要解決幀與幀之間的連續(xù)性和流暢性問(wèn)題。
在文生視頻應(yīng)用方面,美國(guó)AI初創(chuàng)公司Pika labs起初僅有4名全職成員,在發(fā)布Pika 1.0后,7個(gè)月就成為估值2億美元的文生視頻公司。繼發(fā)布的聊天機(jī)器人ChatGPT引領(lǐng)新一輪人工智能浪潮之后,OpenAI于2024年2月16日又發(fā)布了全新的生成式人工智能模型Sora,它能夠通過(guò)文本指令創(chuàng)建長(zhǎng)達(dá)60s的視頻,其逼真的視覺(jué)效果讓它在一夜之間火爆全球。Sora視頻生成效果如圖1-4所示,與另兩個(gè)文生視頻應(yīng)用Runway、Pika相比,Sora的生成效果更逼真、細(xì)節(jié)更豐富。

圖1-4 Sora與Runway、Pika效果對(duì)比
5.理解圖片與視頻
大模型在理解圖片與視頻方面的能力主要通過(guò)多模態(tài)預(yù)訓(xùn)練模型來(lái)實(shí)現(xiàn)。圖片或視頻理解是指根據(jù)用戶(hù)輸入的圖片或者視頻等非文本信息,輸出對(duì)圖片或者視頻的文本描述。例如,對(duì)于如圖1-5所示的都江堰風(fēng)景照片,大模型就能夠很好地理解。

圖1-5 都江堰風(fēng)景照片
用戶(hù)提問(wèn):

大模型的回復(fù)如下。可以看到,大模型比較準(zhǔn)確地描述了照片的信息,并說(shuō)中了照片中是哪個(gè)景點(diǎn)。
大模型的回復(fù):

不僅是風(fēng)景圖片,大模型對(duì)具有人物的圖片也能理解得很到位。例如,對(duì)如圖1-6所示的兒童旅游照片,大模型給出了詳細(xì)且準(zhǔn)確的描述。

圖1-6 一張兒童旅游照片
大模型的回復(fù):

由此可見(jiàn),大模型的核心優(yōu)勢(shì)在于其對(duì)大量數(shù)據(jù)的學(xué)習(xí)能力和由此產(chǎn)生的廣泛應(yīng)用潛力,這使其成為人工智能領(lǐng)域極其重要的基礎(chǔ)技術(shù)和研究熱點(diǎn)。
- 機(jī)器人設(shè)計(jì)與制作
- 深度學(xué)習(xí)計(jì)算機(jī)視覺(jué)實(shí)戰(zhàn)
- Arduino開(kāi)發(fā)實(shí)戰(zhàn)指南:機(jī)器人卷
- 量子人工智能
- 物聯(lián)網(wǎng)+智能家居:移動(dòng)互聯(lián)技術(shù)應(yīng)用
- 類(lèi)腦智能:大腦情感學(xué)習(xí)模型的應(yīng)用研究
- 人工的你:人工智能與心智的未來(lái)
- 解碼智能時(shí)代2021:前沿趨勢(shì)10人談
- 基于信息增強(qiáng)的圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法研究
- 塊數(shù)據(jù)4.0:人工智能時(shí)代的激活數(shù)據(jù)學(xué)
- PVCBOT超簡(jiǎn)單機(jī)器人設(shè)計(jì)與制作(第2版)
- 人工智能原理與應(yīng)用教程
- 顛覆:AI時(shí)代的企業(yè)管理方式大變革
- 因果推斷導(dǎo)論
- 新機(jī)器智能