- AIGC從入門到實戰(zhàn):ChatGPT+Midjourney+Stable Diffusion+行業(yè)應(yīng)用
- 韓澤耀 袁蘭 鄭妙韻
- 16字
- 2024-01-31 18:48:56
第1章 落霞與孤鶩齊飛:AIGC洶涌而來
1.1 涌現(xiàn):人工智能的應(yīng)用
1.1.1 基于大模型的人工智能應(yīng)用的涌現(xiàn)和爆發(fā)
在遠古的地球上發(fā)生了一個重要事件:寒武紀生命大爆發(fā)。那是指在5.4億年前的寒武紀,新的生命形態(tài)大量出現(xiàn)的過程。
在那之前,地球上的生命形態(tài)相對單一,生命活動主要是單細胞微生物的簡單代謝,缺乏多樣性。
當海水的氧氣水平略微超過某個閾值,生物便能夠更高效地進行代謝,這個微小的變化對于地球生命的演化來說卻具有深遠的影響:氧氣的增加促進了生物體的進化和分化,大量生物種類涌現(xiàn),有機體的形態(tài)日益多樣、結(jié)構(gòu)越發(fā)復雜。涌現(xiàn)僅在一瞬之間——從混沌態(tài)中出現(xiàn)的多種多樣的生物,構(gòu)成了絢爛的生物世界,如圖1-1所示。

圖1-1
和寒武紀的生物進化近似的是,基于大模型的人工智能應(yīng)用也是這樣涌現(xiàn)的。
自2016年3月,DeepMind公司的AlphaGo戰(zhàn)勝圍棋世界冠軍李世石后,人工智能一直在飛速發(fā)展,只是和尋常人的交集并不多,通常會在某個特定領(lǐng)域或項目中表現(xiàn)卓越。
而2016年后,在人工智能的自然語言處理領(lǐng)域,隨著開源GPT版本的不斷演進,Open AI公司在這個基礎(chǔ)上持續(xù)研究,不斷探索、引入新的技術(shù)路線,尤其在引入強化學習方法后,很好地提升了模型的效果。
Open AI在模型訓練中,引入了人類專家。人類專家一方面能幫助ChatGPT撰寫更符合人類習慣的回答,另一方面,也對生成的結(jié)果進行排名,實現(xiàn)模型的優(yōu)化。
而且Open AI自成立之初,就致力于打造通用人工智能(Artificial General Intelligence,AGI),并堅定地持續(xù)投入研究。在這樣的愿景下,Open AI吸引了一大批高水平的人才,心無旁騖地開展研發(fā)工作。當商用GPT大模型的訓練參數(shù)到達1750億個時,人工智能也在一瞬間爆發(fā)了。
ChatGPT很快便萬眾矚目,影響力“破圈”,引發(fā)了大眾的關(guān)注,激發(fā)了大眾的熱情和創(chuàng)造力,大家基于各自感興趣的話題與ChatGPT“聊天”,或幽默搞笑、或嚴肅認真,“聊天記錄”在朋友圈和媒體上屢屢“刷屏”。還有人用它寫新聞、作詩、翻譯、編寫代碼,引發(fā)了熱議。
2023年1月25日,美國財經(jīng)雜志《財富》給予了ChatGPT一段精彩的評價:在每一代人的時代里,總有一些創(chuàng)新產(chǎn)品,會突然從工程部門昏暗的地下室里、年輕書呆子們氣味難聞的臥室里,或者孤僻的科技嗜好者的“藏身之處”誕生,最終發(fā)展成為廣大人群,包括你的祖父母在內(nèi)的各個年齡層人士都能熟練操作的日常用品。
2023年3月21日,在英偉達主辦的2023年GTC(GPU Technology Conference,GPU技術(shù)大會)上,英偉達的首席執(zhí)行官黃仁勛提出了“AI的iPhone時刻”的概念,表示以ChatGPT為代表的基于大模型的AI技術(shù),和iPhone橫空出世一樣,已經(jīng)到達了給行業(yè)帶來革命性顛覆的時間點。
說到這里,想必大家會有疑問:什么叫大模型,人工智能大模型是什么?
人工智能大模型是支撐ChatGPT的基石。
之前,人工智能大多針對特定的場景應(yīng)用進行訓練,生成的模型難以遷移到其他場景,屬于“小模型”的范疇。整個訓練過程中,不僅手工調(diào)參工作量大,還需要給機器“投喂”海量的標注數(shù)據(jù),這拉低了人工智能的研發(fā)效率,且成本較高。
大模型通常是在無標注的大數(shù)據(jù)集上,采用自監(jiān)督學習的方法進行訓練的。之后,在其他場景的應(yīng)用中,開發(fā)者只需要對模型進行微調(diào),或采用少量數(shù)據(jù)進行二次訓練,就可以滿足新應(yīng)用場景的需要。
這意味著,對大模型的改進可以讓所有的下游小模型受益,大幅擴展人工智能的適用場景,提升人工智能研發(fā)效率,因此大模型成為業(yè)界重點投入的方向,Open AI、谷歌、Meta、微軟、百度、阿里巴巴、騰訊、華為等紛紛推出了自己的大模型。
特別是OpenAI GPT 3大模型,它在翻譯、問答、內(nèi)容生成等領(lǐng)域的不俗表現(xiàn),讓業(yè)界看到了實現(xiàn)通用人工智能的希望。
當前ChatGPT是基于GPT-3.5的,在GPT-3的基礎(chǔ)之上進行了調(diào)優(yōu),能力進一步增強。
ChatGPT是AIGC (Artificial Intelligence Generated Content,人工智能生成內(nèi)容)的代表性應(yīng)用之一,我們可以將其理解為,ChatGPT主要實現(xiàn)人工智能的文生文(根據(jù)提示文字,利用大模型生成文字內(nèi)容),而其他的AIGC工具則會不同程度地生成其他內(nèi)容,譬如圖片、音頻、視頻。
目前,在各大公司推出的AIGC產(chǎn)品中,ChatGPT遙遙領(lǐng)先并有望延續(xù)自己的優(yōu)勢。當然,AIGC產(chǎn)品也十分豐富,相關(guān)應(yīng)用層出不窮,并日漸成熟,如表1-1所示。
表1-1 主要的AIGC產(chǎn)品

AIGC大潮出現(xiàn)的一大好處是,AI應(yīng)用門檻迅速下降,它變成了所有人都能用,所有行業(yè)都能用的“技術(shù)工具”。用唐朝詩人劉禹錫的詩句來形容就是,舊時王謝堂前燕,飛入尋常百姓家。
1.1.2 人工智能應(yīng)用大規(guī)模涌現(xiàn)的原因
大模型基礎(chǔ)上的人工智能應(yīng)用大規(guī)模涌現(xiàn),有多方面原因。
首先,隨著硬件技術(shù)的不斷發(fā)展,計算能力得到了大幅提升,讓訓練更大、更復雜的模型成為可能。例如,圖形處理器(Graphics Processing Unit,GPU)、張量處理器(Tensor Processing Unit,TPU)等專門為人工智能任務(wù)設(shè)計的硬件加速器,以及分布式計算等技術(shù),都為大模型的訓練提供了強有力的支持。
其次,數(shù)據(jù)的大量積累和開放十分有利于機器學習和深度學習模型的訓練和優(yōu)化。特別是互聯(lián)網(wǎng)和移動設(shè)備等的廣泛應(yīng)用,產(chǎn)生了大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如圖像、文本、語音等,豐富了機器學習和深度學習的語料庫。
再次,新的算法和模型的涌現(xiàn)也推動了大模型的發(fā)展。例如,BERT、GPT等基于Transformer結(jié)構(gòu)的預訓練模型,在自然語言處理領(lǐng)域表現(xiàn)出色,得到了大規(guī)模應(yīng)用。同時,強化學習、生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)、變分自編碼器(Variational AutoEncoder,VAE)等新興算法和模型也在更多的應(yīng)用場景中發(fā)揮著作用。
最后,云計算、容器化、自動化運維等技術(shù)的發(fā)展,為人工智能的大規(guī)模部署提供了可靠的基礎(chǔ)設(shè)施和運營支持。這些技術(shù)為企業(yè)和組織提供了便利,創(chuàng)造了經(jīng)濟效益,使得人工智能應(yīng)用可以更加快速、有效地被部署和應(yīng)用。
1.1.3 人工智能應(yīng)用發(fā)展較快的領(lǐng)域
表1-2中列出的人工智能應(yīng)用領(lǐng)域,在ChatGPT、Midjourney等為代表的大模型應(yīng)用出現(xiàn)前后發(fā)展都比較快,未來發(fā)展速度會更快,但是具體應(yīng)用內(nèi)容有所差別。
表1-2 大模型應(yīng)用出現(xiàn)前后人工智能應(yīng)用示例

以上只是當前涌現(xiàn)的一部分人工智能應(yīng)用,隨著技術(shù)的不斷發(fā)展和創(chuàng)新,未來還將涌現(xiàn)更多的人工智能應(yīng)用。