書名：生成式人工智能（基于PyTorch實現(xiàn)）
作者名： (美)劉煥良
本章字?jǐn)?shù)： 1888字
更新時間： 2025-06-19 18:34:59

關(guān)于本書

本書旨在指導(dǎo)讀者從零開始創(chuàng)建各種內(nèi)容（形狀、數(shù)字、圖像、文本和音樂）。它從簡單的模型入手，幫助讀者建立基礎(chǔ)的深度學(xué)習(xí)技能，然后再向更復(fù)雜的挑戰(zhàn)進(jìn)發(fā)。書中所有的生成模型都是深度神經(jīng)網(wǎng)絡(luò)。

本書從PyTorch中一個綜合的深度學(xué)習(xí)項目開始，非常適合該領(lǐng)域的新手。每一章都是在前一章的基礎(chǔ)上精心編排的。首先，讀者將學(xué)習(xí)使用架構(gòu)簡單的生成對抗網(wǎng)絡(luò)創(chuàng)建形狀、數(shù)字和圖像等基本內(nèi)容。隨著學(xué)習(xí)的深入，復(fù)雜性會逐漸提高，最終我們將建立更先進(jìn)的模型，如Transformer和擴(kuò)散模型。

目標(biāo)讀者

本書旨在介紹生成式人工智能技術(shù)，以及如何借此創(chuàng)建新穎、創(chuàng)新的內(nèi)容，如圖像、文本、圖案、數(shù)字、形狀和音頻，從而提升企業(yè)的業(yè)務(wù)能力并促進(jìn)從業(yè)者的職業(yè)生涯發(fā)展。雖然網(wǎng)上有許多涵蓋了各個主題的免費(fèi)學(xué)習(xí)材料，但這一本將所有內(nèi)容整合成清晰且易于學(xué)做的新式格式，使其足以為任何有志成為生成式人工智能專家的人帶來價值。

本書適合各種商業(yè)領(lǐng)域中的機(jī)器學(xué)習(xí)愛好者和數(shù)據(jù)科學(xué)家閱讀。在閱讀前，讀者應(yīng)對Python有扎實的掌握，具備一定的Python編程技能，要熟悉變量類型、函數(shù)和類，以及第三方Python庫和包的安裝。對于上述知識的學(xué)習(xí)，讀者可以參考W3Schools提供的免費(fèi)在線Python教程。

讀者還應(yīng)對機(jī)器學(xué)習(xí)，尤其是神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)有基本了解。如果需要，可參考《PyTorch深度學(xué)習(xí)實戰(zhàn)》（Deep Learning with PyTorch）一書。附錄B簡要介紹了損失函數(shù)、激活函數(shù)和優(yōu)化器等關(guān)鍵概念，這些概念對開發(fā)和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)至關(guān)重要，不過附錄內(nèi)容并非這些話題的完整教程。

組織結(jié)構(gòu)：路線圖

本書共16章，分四部分。第一部分主要介紹基于PyTorch的生成式人工智能和深度學(xué)習(xí)。

■ 第1章解釋什么是生成式人工智能，以及本書選擇用PyTorch而非TensorFlow等其他人工智能框架來構(gòu)建生成模型的理由。

■ 第2章使用PyTorch創(chuàng)建能執(zhí)行二分類和多類別分類的深度神經(jīng)網(wǎng)絡(luò)，從而幫讀者掌握深度學(xué)習(xí)和分類任務(wù)。這一章是為后續(xù)章節(jié)做準(zhǔn)備，在后續(xù)章節(jié)中，我們將使用PyTorch中的深度神經(jīng)網(wǎng)絡(luò)創(chuàng)建各種生成模型。

■ 第3章介紹生成對抗網(wǎng)絡(luò)（GAN）。讀者將學(xué)習(xí)使用GAN生成具有特定模式的形狀和數(shù)字序列。

第二部分主要介紹圖像生成。

■ 第4章討論如何構(gòu)建并訓(xùn)練能生成高分辨率彩色圖像的GAN。特別是，讀者將學(xué)習(xí)使用卷積神經(jīng)網(wǎng)絡(luò)捕捉圖像中的空間特征，此外，讀者還將學(xué)習(xí)使用轉(zhuǎn)置卷積層對圖像進(jìn)行上采樣并生成高分辨率特征圖。

■ 第5章詳細(xì)介紹在生成圖像中選擇特征的兩種方法。第一種方法是在潛空間中選擇特定向量，第二種方法使用條件GAN，即使用帶標(biāo)簽的數(shù)據(jù)構(gòu)建和訓(xùn)練GAN。

■ 第6章介紹如何使用CycleGAN在兩個域（如黑發(fā)圖像和金發(fā)圖像、馬的圖像和斑馬圖像）之間轉(zhuǎn)換圖像。

■ 第7章介紹如何使用自編碼器及其變體——變分自編碼器生成高分辨率圖像。

第三部分深入介紹自然語言處理和文本生成。

■ 第8章討論使用循環(huán)神經(jīng)網(wǎng)絡(luò)生成文本。在學(xué)習(xí)過程中，讀者將了解詞元化和詞嵌入的工作原理，還將學(xué)習(xí)使用訓(xùn)練好的模型以自回歸方式生成文本，以及如何使用溫度和top-K采樣控制所生成文本的創(chuàng)造性。

■ 第9章根據(jù)論文“Attention Is All You Need”，從零開始構(gòu)建一個用于在任意兩種語言之間進(jìn)行翻譯的Transformer。讀者將逐行實現(xiàn)多頭注意力機(jī)制和編碼器-解碼器Transformer。

■ 第10章使用47000多對英譯法譯文訓(xùn)練第9章構(gòu)建的Transformer。讀者將學(xué)會用訓(xùn)練好的模型將常用英語句子翻譯成法語。

■ 第11章從零開始構(gòu)建GPT-2的最大版本GPT-2XL。之后，讀者將學(xué)習(xí)如何從Hugging Face中提取預(yù)訓(xùn)練的模型權(quán)重，并將其加載到自己的GPT-2模型中進(jìn)而生成文本。

■ 第12章構(gòu)建一個縮減版的GPT模型，其中包含約500萬個參數(shù)，這樣就可以在普通計算機(jī)上進(jìn)行訓(xùn)練。讀者將使用海明威的3部小說作為訓(xùn)練數(shù)據(jù)。訓(xùn)練好的模型可以生成海明威寫作風(fēng)格的文本。

第四部分討論本書中介紹的生成模型的一些實際應(yīng)用及生成式人工智能領(lǐng)域的最新進(jìn)展。

■ 第13章建立并訓(xùn)練能生成音樂的MuseGAN。MuseGAN將一段音樂視為一個類似于圖像的多維對象。生成器生成一首完整音樂，并提交給批評者進(jìn)行評估。然后，生成器會根據(jù)批評者的反饋修改音樂，直到它與訓(xùn)練數(shù)據(jù)集中的真實音樂非常相似。

■ 第14章采用一種與MuseGAN不同的人工智能音樂創(chuàng)作方法。我們不再將一段音樂視為一個多維對象，而是將其視為一系列音樂事件。然后，應(yīng)用文本生成技術(shù)來預(yù)測序列中的下一個元素。

■ 第15章介紹擴(kuò)散模型，它是所有流行的文生圖Transformer（如DALL·E 2或Imagen）的基礎(chǔ)。我們將建立并訓(xùn)練一個能生成高分辨率花朵圖像的擴(kuò)散模型。

■ 第16章以一個項目結(jié)束本書。在這個項目中，我們會使用LangChain庫將預(yù)訓(xùn)練的大語言模型與Wolfram Alpha API或Wikipedia API結(jié)合起來，創(chuàng)建一個“無所不知”的個人助理。

附錄A介紹如何在具備或不具備計算統(tǒng)一設(shè)備體系結(jié)構(gòu)（CUDA）GPU的計算機(jī)上安裝PyTorch。附錄B提供了與本書項目有關(guān)的一些背景信息，以及深度學(xué)習(xí)的一些基本概念，如損失函數(shù)、激活函數(shù)和優(yōu)化器。

官术网_书友最值得收藏!

生成式人工智能（基于PyTorch實現(xiàn)）

關(guān)于本書

目標(biāo)讀者

組織結(jié)構(gòu)：路線圖