官术网_书友最值得收藏!

前言

為何寫作本書

這不是筆者寫的第一本書,也不會是最后一本書,但可能是筆者創作時間最長的一本書,之前寫過幾本書后就變得特別忙碌,以至于本書的寫作時間超過了一年。以前寫的幾本書,都是筆者一個人寫的,工作量特別大,而本書是我與實驗室的博士師弟一起完成的。師弟本科是物理專業,數學基礎比我好,讀博時做了GAN以及語音處理方面的工作,所以主要負責本書基礎部分和語音應用部分的撰寫,而我則負責撰寫GAN在計算機視覺領域中的各類典型框架和應用部分。

說起與GAN的結緣,要回溯到2015年。那時候我在360人工智能研究院做算法工程師。那時我剛接觸深度學習不久,處于快速學習的階段,有一天翻到了關于GAN的內容,覺得特別新奇。但在360工作的時候特別忙,沒有機會深入研究和持續關注GAN,而且那時候的GAN離應用落地確實還有很大的距離。

2017年,我換工作到了陌陌深度學習實驗室,其早期的產品中關于GAN的內容其實不多,但是產品對GAN的需求越來越大,比如超分辨率、人像美顏與美妝,所以我開始真正重視GAN,有時間就會關注GAN,慢慢地整理和輸出了一些與GAN相關的內容,包括博客和視頻課程。那兩年,每年都有上千篇與GAN相關的文章出現,讓我很苦惱。一方面研究GAN理論的文章特別多,看起來很費腦;另一方面,千奇百怪的應用都開始出現,好像每一個領域GAN都能插一腳,給人一種一天看1篇論文都不夠的感覺。

就這樣,我大概在焦慮中追蹤了兩年與GAN相關的內容,直到2019年左右,我發現GAN在業界突然開始大規模商業化。諸如人臉技術中的美妝、風格化、換臉,到圖像質量提升技術中的超分辨,GAN已經不再是“玩具式”算法,而是真正成為很多領域的基礎技術。在這段時間,我同時在創作《深度學習之人臉圖像處理》和《深度學習之攝影圖像處理》,其中也穿插了許多關于GAN的內容。但因為不是專注于講解GAN,所以許多基礎知識只能略講,基礎不好的讀者不太容易掌握。

后來,楊福川編輯邀請我寫一本關于GAN的書,正好師弟郭曉洲在我們平臺創作了一些有關GAN的理論基礎的文章,所以我就邀請師弟揚長補短,一起開始了本書的創作。在創作完這本書之后(其實內容已經不少了),我仍然覺得意猶未盡,因為GAN可以輸出的內容真的是太多了。本書權當是一個開篇,它適合所有對GAN技術感興趣的朋友閱讀。后續我們應該還會創作更多相關圖書,敬請大家期待。

本書主要特點

1.理論基礎知識完善

相比基礎的卷積神經網絡(Convolutional Neural Network,CNN),生成對抗網絡(Generative Adversarial Network,GAN)是一個數學味比較濃厚的創新式架構,它的優化目標設計、定量評估指標等都涉及許多比較底層的數學概念,因此為了讓本書區別于市面上類似的圖書,我們不僅將其定位為模型應用圖書,而且花了4章來專門闡述GAN的優化目標與訓練、評估等內容,提供了豐富的理論知識。

2.內容豐富與前沿

本書共12個章,其中前4章是基礎知識,后8章都是GAN在各個垂直領域中的應用,包括圖像生成、視頻生成、圖像翻譯、人臉圖像編輯、圖像質量提升、通用圖像編輯、對抗攻擊、語音信號處理等,基本覆蓋了GAN在視覺和語音中的絕大部分應用場景。

3.實踐充分

本書后8章都是GAN的應用,一共有9個案例,其中視覺相關案例有6個,語音信號處理相關案例有3個。案例部分都對核心的代碼進行了講解,對實驗結果進行了分析,并提供了所有的源代碼(基于PyTorch編寫)和數據以供讀者對本書的實驗進行復現(相關資源可到“有三AI”公眾號獲取)。通過理論結合實踐的方式讓讀者加深對GAN的理解。

4.圖表清晰豐富

本書筆者繪制了大量的原創插圖,既保證了內容的原創性,又保證了圖像的質量。

本書讀者對象

本書是一本系統講解GAN原理與實踐的書,適合的讀者對象主要分為下面幾類:

?人工智能、深度學習、計算機視覺等專業的師生;

?對GAN技術感興趣的初學者;

?深度學習領域從業者等。

如何閱讀本書

本書一共12章,前4章是理論基礎,后8章是應用實踐。

第1章介紹了無監督生成模型的基本理論,包括無監督生成模型的研究范疇和常用的生成模型原理,例如以完全可見置信網絡、流模型、變分自編碼器、玻爾茲曼機為代表的顯式生成模型和以GAN為代表的隱式生成模型。

第2章介紹了GAN的目標函數及其數學原理,包括原始GAN、LSGAN、EBGAN、fGAN、WGAN、Loss-sensitive GAN、WGAN-GP、IPM、相對GAN以及BEGAN等內容。

第3章介紹GAN在訓練中的常見問題和相應解決方案,其中常見問題包括梯度消失問題、目標函數不穩定問題以及模式崩潰問題,解決方案包括退火噪聲、譜正則化、一致優化、unrolledGAN、DRAGAN、MADGAN等。

第4章介紹了GAN的評價指標和可視化,其中評價指標包括IS、FID、MMD、Wasserstein距離、最近鄰分類器、NRDS等,可視化部分介紹了GAN Lab工具。

第5章介紹了圖像生成GAN的各類模型與應用,包括全卷積GAN、條件GAN、多尺度GAN、屬性GAN、多判別器與生成器GAN、數據增強與仿真GAN,并介紹了DCGAN與StyleGAN圖像生成任務的實踐。

第6章介紹了圖像翻譯GAN的各類模型與應用,包括有監督圖像翻譯GAN、無監督圖像翻譯GAN、多領域圖像翻譯GAN等,并介紹了Pix2Pix圖像上色任務的實踐。

第7章介紹了人臉圖像編輯GAN的各類模型與應用,包括人臉表情編輯GAN、人臉年齡編輯GAN、人臉姿態編輯GAN、人臉風格編輯GAN、人臉換臉編輯GAN等,并介紹了基于StyleGAN的人臉圖像重建與屬性編輯任務的實踐。

第8章介紹了圖像質量增強GAN的各類模型與應用,包括圖像去噪GAN、圖像去模糊GAN、圖像色調映射GAN、圖像超分辨GAN、圖像修復GAN等,并介紹了基于SRGAN的人臉圖像超分辨任務的實踐。

第9章介紹了三維圖像與視頻生成GAN的各類模型和應用,包括三維圖像生成GAN、視頻生成與預測GAN等。

第10章介紹了更通用的圖像編輯GAN框架,包括深度編輯GAN、圖像融合GAN、交互式圖像編輯GAN等。

第11章介紹了對抗攻擊以及GAN在其中的應用,包括對抗攻擊的常見范式,用于攻擊的Perceptual-Sensitive GAN、Natural GAN、AdvGAN等,用于防御的APEGAN、DefenseGAN等,并介紹了對抗工具包AdvBox的實踐。

第12章介紹了GAN在語音信號處理中的應用,包括用于語音增強的SEGAN、用于語音風格轉換的CycleGAN-VC、用于語音生成的WaveGAN。

致謝

感謝機械工業出版社的楊福川編輯,他聯系我寫作本書,并在后續的編輯校稿中完成了很多工作。

感謝有三AI公眾號、有三AI知識星球的忠實粉絲,是他們的支持讓我有了繼續前行的力量。

感謝本書中涉及的GitHub開源項目的貢獻者,是他們無私的技術分享,讓更多人因此受益,這是這個技術時代里最偉大的事情。感謝前赴后繼提出了書中方法的研究人員,因為他們的辛勤工作才有了本書的內容。

最后,感謝我的家人的寬容,因為忙于事業,我給他們的時間非常少,希望以后能做點改變。

言有三

于長沙

2022年9月1日

2017年,我在研究生進修期間首次接觸到了GAN,那段時間正是GAN研究熱度高漲之時。可能是由于物理學本科出身,我對相關的模型、理論有一些“執念”,總希望把它的每個細節、每個設計邏輯都理解透徹。在學習過程中,我發現GAN的涉及面非常寬泛,因而做了大量的學習記錄。彼時,龍鵬師兄(即言有三)正在做AI知識公眾號,我覺得非常有趣,便順帶將自己積累的一部分內容分享到公眾號。之后,龍鵬師兄收到楊福川編輯的GAN圖書寫作邀請,我恰好對GAN的理論部分比較熟悉,就自然而然地參與其中。通過本書,我希望能幫助更多的人認識GAN。另外,由于筆者自身水平的限制,書中難免存在疏漏,敬請廣大讀者批評指正。

郭曉洲

于北京

2022年9月1日

主站蜘蛛池模板: 陵川县| 兴文县| 平度市| 沙坪坝区| 东丽区| 遵化市| 河池市| 夏邑县| 通榆县| 镇安县| 牙克石市| 仁化县| 陇川县| 繁峙县| 徐闻县| 曲水县| 大城县| 平乐县| 清涧县| 通河县| 绍兴市| 信宜市| 卫辉市| 绿春县| 青龙| 抚远县| 定南县| 双流县| 沙田区| 广汉市| 永顺县| 济南市| 东辽县| 商南县| 绥江县| 台前县| 全南县| 凉山| 中西区| 蒙阴县| 卢湾区|