- AIGC從入門到實戰:ChatGPT+Midjourney+Stable Diffusion+行業應用
- 韓澤耀 袁蘭 鄭妙韻
- 4131字
- 2024-01-31 18:48:57
1.3 遞進:人工智能時代的變化
1.3.1 AI 2.0向多領域、全場景應用邁進
隨著AI 1.0時代的基礎建設完成,人工智能開始進入AI 2.0時代。在這一階段,人工智能從單一領域向多領域、全場景應用邁進,改變了人們的生活和工作方式。
在AI 2.0時代,算力、算法、數據依然是人工智能發展的基礎。但是隨著技術的進步,它們也得到了更加深入的應用和發展。
算力方面,人工智能利用分布式計算和邊緣計算技術,更加高效地處理數據和執行任務。
算法方面,人工智能進一步探索深度學習的極限,以及向更加復雜和高級的算法領域拓展,例如強化學習、遷移學習等。
數據方面,人工智能更加依賴自身的數據生成能力,例如自監督學習和增強學習等技術,以及更加廣泛的數據共享和協作,這樣,人工智能就能更加準確地理解和應用現實世界中的數據。
人工智能應用的涌現,使得人們更加積極地思考人工智能對人類的影響。例如,人工智能的普及可能會導致一些就業崗位消失,但同時也會創造新的崗位和機會。我們需要更加積極地應對這些挑戰和機遇,讓人工智能成為人類社會可持續發展的助推器。
1.3.2 AIGC的產業圖譜帶來新的創變紀元
AIGC的產業圖譜如圖1-4所示,相關產業的發展將開啟新的創變紀元,幫助年輕一代逐夢AIGC時代。

圖1-4
AIGC的產業圖譜自下而上由基礎的硬件算力、基于平臺的大模型、在此基礎上出現的各種功能、相應的各種實際應用及行業場景組成。
圖中提到的跨模態生成(cross-modal generation)和多模態生成(multimodal generation)不同,雖然都涉及處理多種類型的數據(如文本、圖像、音頻等),但它們的含義和應用場景有所不同。
跨模態生成通常指的是從一種模態的數據生成另一種模態的數據。例如,給定一段文本描述,生成對應的圖像;或者給定一張圖像,生成描述這張圖像的文本。這種生成過程涉及從一種模態轉換到另一種模態,因此被稱為“跨模態生成”。
多模態生成則更多地關注如何利用多種模態的數據共同生成新的內容。例如,給定一段音頻和對應的文本,生成一個同步的動畫。在這種情況下,生成過程需要同時考慮多種模態的數據,因此被稱為“多模態生成”。多模態生成的示例如下。
● 文本和音頻生成視頻:給定一段文本和配套的音頻,生成一個視頻。
● 圖像和文本生成音頻:給定一張圖像和一段文本描述,生成一個描述圖像內容的音頻。
● 音頻和視頻生成文本:給定一個視頻和配套的音頻,生成一段描述視頻內容的文本。
● 文本和音頻生成音樂:給定一段歌詞和一段旋律,生成一首歌曲。
● 圖像和文本生成3D模型:給定一張圖像和一段文本描述,生成一個3D模型。
模型層中自然語言理解(Natural Language Understanding,NLU)和自然語言生成(Natural Language Generation,NLG)是自然語言處理(Nature Language Processing,NLP)中的兩個關鍵領域。NLU致力于使計算機能夠理解和解釋人類自然語言,而NLG則專注于使用計算機生成人類可讀的自然語言文本。
以下模型屬于NLU。
● Transformer:Transformer模型是一種深度學習模型架構,主要用于處理序列數據,核心思想是利用自注意力機制(Self-Attention)來捕獲輸入序列中的全局依賴關系。Transformer模型的設計使其在處理長序列和捕捉長距離依賴關系方面具有優勢,并且由于其擅長并行處理,它能夠更有效地利用硬件資源,從而加速模型訓練。Transformer作為目前廣泛應用于自然語言處理任務的模型,通常用于機器翻譯、文本分類等方面。
● BERT:BERT全稱為Bidirectional Encoder Representations from Transformers,即基于Transformer的雙向編碼器表示,是由Google在2018年提出的一種自然語言處理模型。它的主要創新之處在于使用了Transformer的雙向編碼器,這使得BERT能夠對輸入文本進行全面的理解,從而在許多NLP任務中取得了顯著的改進。BERT作為一種預訓練的語言模型,通常用于處理自然語言理解任務,如語義理解、命名實體識別等方面的任務。
以下模型屬于NLG。
● 基于流的生成模型(Flow-Based Model):這個模型的基本思想是,將一個簡單的概率分布(如高斯分布)通過一系列可逆的變換(也稱為“流”)映射到一個復雜的概率分布。這些變換是經過特別設計的,以便計算它們的雅可比行列式,從而能夠高效地計算目標分布的概率密度和采樣。基于流的生成模型的主要優點是它們能夠同時進行精確的密度估計和高效的采樣,這使得它們在生成任務中特別有用,基于流的生成模型可以生成具有多樣性的文本。
● 基于預訓練的生成式Transformer模型(Generative Pretrained Transformer,GPT):由OpenAI開發,主要用于各種自然語言理解和生成任務。GPT模型采用了Transformer的架構,并對其進行了預訓練,使其能夠在沒有標簽的大規模文本數據上進行無監督學習。這種預訓練方法可以幫助模型學習到豐富的語言表示,從而在微調階段可以更好地適應各種下游任務(指其后續進行的如文本分類、情感分析、命名實體識別、機器翻譯等任務)。作為一種常用的預訓練的生成式語言模型,GPT一般用于生成自然語言文本,如對話系統、文章生成等。
● 生成式語言模型(Generative Language Model,GLM):是一種廣義語言模型,它是在GPT模型基礎上的擴展。在中文環境中,該模型常常直接用英文縮寫GLM表示,而不進行翻譯。它的主要特性是在處理語言生成任務時,不僅僅考慮上文的信息(也就是在當前位置之前的詞),還要考慮下文的信息(也就是在當前位置之后的詞)。這種特性有助于較好地理解和生成語言,因為在很多情況下,一個詞的含義是由它的上下文共同決定的。這種在處理語言生成任務時同時考慮上下文的方法,也被用在了其他的模型中,如BERT模型。然而,不同于BERT使用了雙向的Transformer編碼器來實現這個目標,GLM是通過在訓練過程中使用掩碼機制(Masking Mechanism)來實現的,這使得GLM不需要額外的解碼過程,可以直接生成語言。GLM作為一種生成模型,作用是生成自然語言文本,主要用于自然語言生成任務。
音頻生成模型、圖像生成模型、視頻生成模型、多模態生成模型也有很多,下面一一進行說明。
以下模型屬于圖像生成模型。
● 生成對抗網絡(GAN):深度學習領域的一個重要概念,由伊恩?古德費洛等人于2014年首次提出。GAN的基本思想是通過對抗性的過程來生成數據。GAN由兩部分組成:一個是生成器(Generator),另一個是判別器(Discriminator)。在訓練過程中,生成器和判別器會博弈:生成器試圖生成越來越逼真的假數據以欺騙判別器,而判別器則試圖變得越來越擅長區分真假數據。通過這種博弈,GAN最終能夠生成與真實數據非常接近的假數據。GAN在各種應用中展示了其強大的能力,包括圖像生成、圖像超分辨率、圖像到圖像的轉換、語音生成等。在圖像生成模型中,GAN是一類用于生成逼真圖像的模型,包括 DC-GAN、PG-GAN、Style-GAN 等。
● 擴散模型(Diffusion Model):深度學習領域的一種擴散型的生成模型,核心思想是將數據生成過程視為一種從一個已知的簡單分布(如高斯分布)向目標數據分布轉變的擴散過程。它的一個關鍵步驟是定義一系列的轉換,這些轉換將簡單分布逐漸“扭曲”成目標分布。在生成新的數據點時,模型首先從簡單分布中抽取一個樣本,然后將這個樣本通過一系列的轉換,逐漸變形為一個新的數據點。擴散模型已經在多種任務中表現出了強大的性能,包括在圖像生成、語音生成等任務中。
● 變分自編碼器模型(VAE):一種深度學習模型,在自編碼器(AutoEncoder)的基礎上,引入了概率編程和變分推斷的思想,其目標是學習數據的潛在分布,然后從這個分布中采樣生成新的數據,具有類似于輸入數據的特征。VAE主要用于生成任務,不過它在許多任務中具有廣泛的應用,包括數據生成、圖像生成、圖像插值、數據降維和特征學習等,在探索數據的潛在結構和生成新的樣本方面提供了有效的方式。
以下模型屬于音頻生成模型。
● WaveGAN:WaveGAN 是一種基于GAN的模型,用于生成逼真的音頻波形。
● WaveNet:WaveNet 是一種基于深度卷積神經網絡的模型,可以生成高質量的語音和音樂。
● MelGAN:MelGAN 是一種基于GAN的模型,用于生成高質量的梅爾頻譜特征,然后將其轉換為音頻波形。
● Tacotron 2:Tacotron 2 是一種序列到序列(Seq2Seq)的模型,用于將文本轉換為逼真的語音。
以下模型屬于視頻生成模型。
● VideoGAN:類似于圖像生成模型的 GAN,但針對視頻生成進行了擴展,例如 VGAN、MoCoGAN 等。
● Video Prediction Model:用于預測視頻未來幀的模型,可以用于生成連續性視頻,如 PredNet、ConvLSTM 等。
以下模型屬于多模態生成模型。
● 對比性語言-圖像預訓練模型(Contrastive Language-Image Pretraining,CLIP):OpenAI在2021年推出的一種多模態生成模型,它的設計目標是理解和生成圖像和文本之間的關系,這是通過同時訓練語言和視覺模型來實現的。在訓練過程中,CLIP會從互聯網上的大量文本和圖像對中學習,目標是確保文本與其對應的圖像之間的內積(即它們之間的相似度)盡可能大,而與其他圖像或文本的內積盡可能小。
● DALL-E:是一個圖像生成模型,不過它最擅長根據文本描述生成對應的圖像。DALL-E是由OpenAI開發的一個AI模型,它的目標是根據給定的文本描述生成對應的圖像。DALL-E 是在GPT-3和VQ-VAE-2(用于學習圖像的離散表示的生成模型)的基礎上訓練的。“DALL-E”這個名字來自著名的畫家達利,意味著這個模型具有生成圖像的能力,并且它的能力是超越了GPT-3文本生成能力的新能力。DALL-E 在許多場景中都表現出了強大的性能,包括生成從未存在過的生物、物體,甚至是符合特定風格或主題的圖像,使得它在藝術創作、產品設計、動畫制作等領域有著廣泛的應用潛力。
● Multimodal Transformer:一類結合圖像和文本的Transformer模型,用于跨模態生成任務。
神經輻射場(Neural Radiance Fields,NeRF)目前比較難歸類,可以歸到圖像/視頻生成模型中,它是一種深度學習方法,用于生成高質量3D場景的建模和渲染。NeRF的目標是從一系列2D圖片中學習對一個3D場景的全局表示,然后用這個表示來生成新的2D視圖。
自從NeRF在2020年被提出以來,它已經在3D建模和渲染的任務中顯示出了很高的性能,包括從稀疏的2D圖片中重建3D場景,以及生成新的2D視圖。
需要注意的是,上述模型可以在不同任務和領域中靈活應用,它們的歸屬也會根據模型的設計和主要應用領域而有所變化,并不絕對。
AIGC的產業圖譜有如下用途。
● 了解整體生態:產業圖譜可以幫助我們全面了解AIGC領域的整體生態,包括底層基礎設施、關鍵技術和應用場景等,幫助我們把握行業發展的全貌和趨勢。
● 識別發展機會:通過分析產業圖譜,可以識別出AIGC領域的發展機會和趨勢,了解不同層級之間的關系和相互作用,幫助企業和個人確定合適的發展方向和策略。
● 指導投資決策:產業圖譜可以作為投資決策的參考依據,幫助投資者了解AIGC領域不同層級的發展情況,評估投資項目的風險和潛力,從而做出明智的投資決策。
● 促進合作與創新:產業圖譜可以為不同企業、機構和個人之間的合作提供參考和平臺,促進跨領域的合作與創新,推動AIGC領域的發展和進步。
總之,AIGC的產業圖譜有助于整合、展示和理解AIGC領域的各個方面,為行業發展提供指導和參考,推動技術創新和商業應用的蓬勃發展。