不朽情缘殿堂选哪个好

書名：生成式人工智能
作者名：丁磊
本章字數(shù)： 4978字
更新時間： 2023-05-30 15:18:14

聚焦AIGC：內(nèi)容皆可生成

當下，世人的目光被ChatGPT、GPT-4這些AIGC深深吸引。而在清楚地認識這些新事物之前，我們需要梳理一下它們的歷史脈絡，其實在數(shù)年硝煙彌漫的“內(nèi)容大戰(zhàn)”中，我們已經(jīng)悄然經(jīng)歷了多種內(nèi)容形式的迭代：PGC（professional generated content）、UGC（user generated content）和AIUGC（artificially intelligent UGC）。PGC即“專業(yè)生產(chǎn)內(nèi)容”，主要指具備專業(yè)背景的內(nèi)容生產(chǎn)者所創(chuàng)造的內(nèi)容；UGC則為“用戶生產(chǎn)內(nèi)容”，其內(nèi)容的源頭更偏大眾化，人人都可作為用戶進行內(nèi)容生產(chǎn)；AIUGC則為人工智能與UGC的結合，人工智能參與到了用戶創(chuàng)作內(nèi)容的過程中。如今，在三度更迭之后，AIGC正式來襲。與PGC、UGC和AIUGC不同的是，在AIGC的概念中，“無生命的”人工智能成了完全的內(nèi)容源頭，“無生命主體”成了為人類創(chuàng)作內(nèi)容的生產(chǎn)者。人工智能在人類社會的應用又取得了顛覆性的突破，透出了不同于以往的炫目光彩，吸引著人們不斷探索。如圖1-7，從PGC、UGC、AIUGC到AIGC，所對應的內(nèi)容數(shù)量呈逐漸增加的趨勢。

圖1-7 內(nèi)容創(chuàng)作的四個發(fā)展階段

從字面上看，AIGC就是利用人工智能自動生成內(nèi)容的生產(chǎn)方式，它可以在生成式AI模型、訓練數(shù)據(jù)等的基礎上，生成文本、圖片、音頻、視頻、代碼等多樣化內(nèi)容，這種快速的內(nèi)容生產(chǎn)方式給市場注入了令人興奮的新鮮血液。AIGC的出現(xiàn)，使得各行各業(yè)都受益，使得人們的生活更加便捷。但在發(fā)展得如火如荼的同時，AIGC又引發(fā)了我們對其更深層次的思考。

AIGC開啟了新一輪的內(nèi)容生產(chǎn)革命，它在多樣性、質(zhì)量、效率三個方面推動了內(nèi)容生產(chǎn)大踏步前進。AIGC的出現(xiàn)，既可以滿足消費型內(nèi)容亟待擴充的需求，也可以快速產(chǎn)出多樣化的內(nèi)容形態(tài)，迎合多種細分場景，以AI作者的身份助力商業(yè)化浪潮的翻涌?；蛟S我們現(xiàn)在正在看的某張圖片、某段視頻就是AI作者的“作品”，而我們卻不自知。

下面我們就圍繞AIGC，對文本、圖片、視頻等不同的內(nèi)容形式展開論述，看看AIGC究竟是如何“長袖善舞”，在各個內(nèi)容形式中發(fā)揮作用的。

文本生成

AIGC生成文本目前主要被應用于新聞的撰寫、給定格式的撰寫、風格改寫以及聊天對話，GPT是主流的文本生成模型之一。

GPT的“學名”是生成式預訓練模型（generative pre-training transformer），這是一種用來分析和預測語言的人工智能模型，它可以幫助我們進行自然語言處理，例如機器翻譯、自動文摘和快速問答。GPT的厲害之處是，它可以在文本中自動學習概念性內(nèi)容，并自動預測下一段內(nèi)容。也就是說，它可以根據(jù)上下文記住概念，并能夠在短時間內(nèi)直接輸出相關內(nèi)容。

GPT背后的基礎模型是一種新型的機器學習技術，它可以幫助我們分析大量的自然語言數(shù)據(jù)。它背靠一個大型神經(jīng)網(wǎng)絡，通過在已有文本庫中找到有關自然語言的規(guī)律來學習。GPT無須人工設計特定的自然語言處理系統(tǒng)，可以根據(jù)已有文本，自動生成語法正確、內(nèi)容相關的文本。有這樣一個“神器”，很多內(nèi)容就可以借助它的力量來完成了！

GPT的發(fā)展目前經(jīng)歷了GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4幾個階段。對于GPT-1模型，我們可以這么理解：先使用海量沒有進行標注的語料，預訓練出一個語言模型，而后對語言模型進行微調(diào)，使之應用于特定的語言任務中。GPT-2則在GPT-1的基礎上進行了多任務的訓練，使用了更大的數(shù)據(jù)集，提升了語言處理能力。GPT-3則在訓練的參數(shù)量、訓練數(shù)據(jù)和訓練費用上都高于前兩者，能完成更加復雜的任務。

OpenAI推出的ChatGPT是GPT-3.5的延伸，這是一款聊天機器人程序，能通過學習和理解人類的語言與人類對話，還能實現(xiàn)視頻腳本撰寫、營銷文案寫作、文本翻譯、代碼編寫等功能。例如它在代碼理解和編寫方面的能力，就在程序員圈引起了廣泛的關注：它可以看懂你輸入的代碼片段，幫你解讀其中的含義，甚至可以根據(jù)你的要求幫你編寫一段完整的代碼。如此強大的能力，幾乎顛覆了人們的認知，并引發(fā)了諸多關于“AI替代人類”的相關討論。

而當人們還沉浸在ChatGPT帶來的無限遐想中時，就在2023年3月，OpenAI推出了史上最強大的模型——GPT-4。它在文學、醫(yī)學、法律、數(shù)學、物理和程序設計等不同領域表現(xiàn)出很高的熟練程度，各方面能力已全面超越ChatGPT。不僅如此，它還能夠將多個領域的概念和技能統(tǒng)一起來，并能夠理解一些復雜概念。OpenAI在官網(wǎng)上演示了這樣一個示例：向GPT-4展示一張圖片（圖1-8），并詢問圖中有什么有趣的地方。而GPT-4的回答相當精妙：這幅圖的有趣之處在于，把一個大而過時的VGA（視頻圖形陣列）接口插入一個小而現(xiàn)代化的智能手機充電端口，這是十分荒謬的。GPT-4儼然擁有一個普通人的正常思維。

要想深刻了解AI技術的發(fā)展，我們就需要到推動主體——企業(yè)中去。主打AI文本生成的Jasper公司位于美國加利福尼亞州，通過其產(chǎn)品的文本生成功能，用戶可以輕松完成生成Instagram（照片墻）標題，編寫TikTok（抖音國際版）視頻腳本、廣告營銷文本、電子郵件內(nèi)容等略顯燒腦的重復性工作。AI文本生成功能一經(jīng)推出，便給社交媒體、跨境電商、視頻制作等多個新興行業(yè)帶來了巨大的顛覆力量。

圖1-8 一張“有趣”的圖片

圖片來源：https://openai.com/research/gpt-4

除了Jasper以外，OpenAI更是近期談論AI時不可繞過的熱門企業(yè)。OpenAI是一家AI研究公司，成立于2015年，它旨在促進人工智能的安全可控發(fā)展。我們前文中提到的GPT這類卓越的自然語言處理模型，就是OpenAI首創(chuàng)推出的，這也使得OpenAI一躍成為AI行業(yè)的佼佼者。在自己進行技術創(chuàng)新之外，OpenAI也通過與微軟等行業(yè)巨頭的合作，將AI的應用推向更高的層次，這也將為人類的日常生活帶來豐富的可能性。

由于GPT有基于英文語料庫且不開源的局限，國內(nèi)的技術人員也在探索我們自有的自然語言處理模型。2020年11月中旬，北京智源人工智能研究院和清華大學研究團隊就合作推出了中文預訓練模型——清源CPM（Chinese Pretrained Models），我們也有了自主研發(fā)的類似于GPT的模型。

圖片生成

你是否嘗試過用AI生成圖片呢？談到AI生成圖片，你第一時間又會想到哪個程序呢？你所使用的程序，很可能背后是由Diffusion（擴散）模型來進行技術支撐的。Diffusion模型是一種新興的AI技術，它的靈感來源于物理學中的擴散現(xiàn)象：通過對圖片不斷加入噪聲來生成一張模糊的圖片，這個過程類似于墨水滴入水池的擴散過程；再通過深度神經(jīng)網(wǎng)絡學習模糊的圖片并還原成原始圖片的逆擴散過程，實現(xiàn)生成圖片的功能。目前，Diffusion模型在視覺藝術和設計相關領域非常受歡迎。

Stability AI是一家全球領先的AI研究型企業(yè)，致力于開發(fā)前沿的人工智能模型。2022年，由該公司與另外兩家初創(chuàng)公司共同研發(fā)的Stable Diffusion模型發(fā)布，可以真正實現(xiàn)“一秒出圖”，這個“一秒”不是夸張的代指，而是真正的事實。這就意味著你可以借助AI，實現(xiàn)自己瑰麗的夢境，復原宏大的想象，也可以為自己的小說配上極富幻想感的插圖，不論它們有多超現(xiàn)實，你都可以通過AI把它們呈現(xiàn)在大家的眼前，讓想象不再孤獨。

2022年，AI繪圖突然大熱，隨著DALL·E2、Stable Diffusion、Midjourney等圖像生成領域現(xiàn)象級應用的紛紛興起，AI繪畫就像一陣旋風，首先在國外引起了不小的風浪，社交平臺上出現(xiàn)了大量的AI繪畫相關嘗試和討論。很快這場旋風就從國外刮到國內(nèi)，引起了國內(nèi)用戶的廣泛關注。這些應用到底有著怎樣驚奇的功能，而它們背后又有哪些企業(yè)在推動這場AI繪畫“旋風”呢？

首先我們把目光放到Midjourney身上（圖1-9），這是由同名研究實驗室開發(fā)的AI繪畫工具。在AI繪畫領域，Midjourney降低了藝術繪畫創(chuàng)作的門檻，用戶只需要輸入文字描述，計算機就會自動生成一張作品。Midjourney采用了深度學習模型，能夠自動為用戶生成高質(zhì)量的繪畫作品，包括素描、油畫等，讓用戶的使用更加方便。

毫不夸張地說，Stable Diffusion模型是掀起AI繪畫熱潮的源頭之一，Stable Diffusion本身及基于它開發(fā)的繪畫工具，讓AI繪畫引爆了輿論熱潮。而其背后的公司Stability AI在AI繪畫模型爆火前的估值為1億美元，爆火后的估值則為10億美元，狂漲10倍，足見AI技術產(chǎn)出的大眾化程序有多么強大的市場潛力。

圖1-9 Midjourney官網(wǎng)

與此同時，也有其他公司在AI繪畫賽道“另辟蹊徑”。如一家成立時間不到兩年的公司PromptBase，主營業(yè)務為銷售AI繪畫工具的提示詞，將提示詞復制到Midjourney、Stable Diffusion等AI繪畫平臺，可以實現(xiàn)精準快速的圖像生成，讓用戶在探索提示詞上少走彎路。

若把目光轉向國內(nèi)，百度集團旗下的人工智能產(chǎn)品文心一格也在2022年8月宣布，用戶只需要輸入一段文字，并選擇作畫風格，文心一格就可以快速生成一幅畫作。它以百度飛槳深度學習平臺、文心大模型等技術為支撐，通過對海量優(yōu)質(zhì)圖文的學習，經(jīng)過多次迭代升級，如今已具備了更強的中文內(nèi)容語義理解能力以及高質(zhì)量圖像生成能力，進一步滿足國內(nèi)用戶對AI繪畫的需求。

視頻生成

AIGC視頻生成，是一種基于人工智能的視頻制作技術，它能夠根據(jù)用戶提供的文字提示，自動生成視頻內(nèi)容，而且還能夠根據(jù)不同的需求調(diào)整視頻的參數(shù)，以達到最佳效果。這在某種程度上是AIGC圖片生成的延伸，視頻生成的目標是生成連續(xù)圖片（每張圖片即一幀）的序列，它可以使用深度神經(jīng)網(wǎng)絡技術來生成高質(zhì)量視頻和動態(tài)內(nèi)容，從而極大地提高視頻的制作速度，也能夠讓視頻內(nèi)容更加逼真生動。

AIGC視頻生成已經(jīng)在很多行業(yè)得到了應用，并取得了不錯的效果。學校可以使用AI視頻生成技術來制作動畫片或教學視頻，醫(yī)院也可以使用AI視頻生成技術來模擬手術過程，幫助外科醫(yī)生更好地理解手術流程。我們體驗過的視頻游戲、虛擬現(xiàn)實（VR）、視頻會議等，都可能與AIGC視頻生成的技術有關。

在AIGC視頻生成技術逐漸成熟后，不少新興科技公司也開始使用人工智能技術來進行影視制作，傳統(tǒng)的影視制作方法與人工智能技術強強聯(lián)合，能實現(xiàn)大規(guī)模的動態(tài)圖像處理、自動剪輯、自動字幕添加、智能特效設計等，在影視制作中也能極大地解放人力和物力，壓低制作成本。

AI影視制作的案例頗多，如電腦藝術家格倫·馬歇爾（GlennMarshall）的人工智能電影《烏鴉》（The Crow）就獲得了2022年戛納短片電影節(jié)評審團獎。《烏鴉》的基礎是視頻網(wǎng)站上的短片Painted，馬歇爾將其輸入OpenAI創(chuàng)建的神經(jīng)網(wǎng)絡中，然后指導另一個模型生成圖像，這樣就生成了一段關于“荒涼風景中的烏鴉”的視頻。在電影《速度與激情7》中，劇組將虛擬演員“放置”到視頻中，實現(xiàn)虛擬與現(xiàn)實的完美融合，減輕人物和場景的限制，實現(xiàn)更多可能。這種效果是怎樣實現(xiàn)的呢？這涉及多重技術支持：首先從之前的鏡頭中選擇拍攝所需的動作和表情，建立數(shù)字成像模型，再渲染出虛擬的人物；在替身演員拍攝完肢體動作后，還會對臉部進行替代。通過這種方式，逝去的保羅·沃克在電影《速度與激情7》中“重生”，為影迷帶來了慰藉。

在AIGC視頻制作賽道同樣有很多“明星企業(yè)”。2023年2月6日，人工智能初創(chuàng)公司Runway官網(wǎng)宣布推出AI視頻生成模型Gen-1，給競爭已十分激烈的AIGC賽道又添了一把熊熊烈火。Gen-1究竟有什么令人驚嘆之處呢？它采用了最新的深度學習編碼技術，可以將數(shù)據(jù)轉化為精美的3D圖像和視頻，還能根據(jù)文字腳本、圖片、視頻剪輯等進行自動內(nèi)容生成，創(chuàng)造出真實感十足的3D場景，幫助使用者體驗真實世界中所不能觸及的情景，比如現(xiàn)在無法實現(xiàn)的太空旅行、歷史重現(xiàn)等，小說中的“穿越”情節(jié)可以在現(xiàn)實中上演，給生活帶來了無盡想象和無限可能。此外，Runway還提到會不斷改進Gen-1，讓其以更低的成本和更快的速度，生成更精彩的內(nèi)容，為人類提供無盡的創(chuàng)意。

除行業(yè)新秀外，谷歌也推出了Imagen Video與Phenaki兩款視頻制作工具。其中，Imagen Video能夠生成高清以及具有藝術風格的視頻和文本動畫，還具有高度的可控性、對世界知識和3D對象的理解能力，而Phenaki能夠根據(jù)一個故事的時間線來生成視頻。另一家硅谷巨頭Meta（臉書部分品牌更名而來）推出的則是Make A-Video，借助這款工具，可以生成非常富有想象力的奇趣視頻（圖1-10）。

圖1-10 Make-A-Video生成視頻示例

圖片來源：https://makeavideo.studio

除了AIGC在內(nèi)容生成中的多角度應用，根據(jù)這項技術所延展的內(nèi)容工具還能“互通有無”。不同內(nèi)容形式的模型之間并沒有壁壘，而是可以聯(lián)合使用，實現(xiàn)跨模態(tài)的內(nèi)容生成。例如將GPT-3、Stable Diffusion一起使用，可以實現(xiàn)流暢的修圖功能，讓修圖不再費時費力，美工不再被甲方的需求折磨。這個功能為什么可以實現(xiàn)呢？如圖1-11，我們給定一個輸入圖像和一個編輯圖像的文本指令，這樣它就能遵循我們給出的描述性指令來進行圖片的加工編輯了。這聽起來很智能，但實現(xiàn)此類功能的前提是要精細化地了解AI的話術并正確使用有效的提示詞。如果沒有正確使用提示詞，很容易雞同鴨講。

圖1-11 通過給AI發(fā)出指令，給雕像穿上衣服（使用instructPix2Pix生成）

總之，從文本、圖片、視頻這幾個主流的內(nèi)容形式來看，AIGC已然在其中瘋狂“攻城略地”，取得了難以想象的巨大進步，它可以輔助人類創(chuàng)作甚至自動生成內(nèi)容。是否會有那么一天，人類陷入AI構造的信息繭房，逃不出數(shù)據(jù)庫的桎梏，這仍需時間的考驗。

但從產(chǎn)業(yè)發(fā)展上看，AI的技術革新已經(jīng)滲透到人類的日常生活，下沉為人人皆可使用的技術工具，這是非?？上驳淖兓?。基于AI疾速發(fā)展帶來的倫理和道德問題，或許會有一段時間的過渡期，我們須等待相關制度和規(guī)則的完善。但AIGC勢如破竹地闖入了人類的領地，從此與人類相伴相生。

官术网_书友最值得收藏!

生成式人工智能

聚焦AIGC：內(nèi)容皆可生成

文本生成

圖片生成

視頻生成