- AI芯片:科技探索與AGI愿景
- 張臣雄
- 5858字
- 2025-08-07 17:50:37
1.2.2 GPU
GPU本質上依然是先進的馮·諾依曼體系結構,專為加速圖形處理而設計。GPU的特點是能夠進行大規模并行處理。雖然CPU可以執行復雜的指令,但在大規模計算的情況下,處理是序列進行的,非常耗時。而GPU使用大量通用算術單元,根據CPU的指令并行處理計算任務。GPU中的計算單元被設計為SIMD架構。通過SIMD單元,GPU可以高效地并行執行大量線程,控制邏輯比一般的高性能CPU更簡單:既無須估計或預取分支,也沒有每個核內存的限制。這使得GPU能夠在一塊芯片中容納遠比CPU更多的核。
在2003年,通用圖形處理器(General Purpose Graphic Processing Unit,GPGPU)的概念首次被引入,標志著GPU從專門用于圖形處理向通用計算領域的擴展。如今,隨著GPGPU的軟件和硬件支持,GPU的應用領域已經擴展到各種高級應用,包括深度學習、區塊鏈,以及天氣預報、分子動力學等許多HPC應用,并被廣泛用于各種邊緣設備。英偉達最初只為處理3D圖形數據而在GPU中設計了著色器算術單元,隨著持續的迭代升級,GPU的應用更加靈活,并有了新的指令。英偉達用于AI計算的GPU產品,始于2007年推出的Tesla系列GPU,現在已經發展到B100和B200(B200由兩塊B100組成,并通過NVLink等互連技術進行數據傳輸)。表1.2以英偉達的GPU為例,展示了2010年以來GPU技術指標的演進。
從這些技術指標的演進過程可以看出,在十幾年的時間內,GPU取得了巨大的進步。2017年,谷歌研究人員發布的Transformer深度學習模型開創了大模型時代。大模型擁有大量由權重和偏置值組成的參數,以提高輸出的準確性。當時為了訓練大模型,研究人員使用1000多塊A100 GPU運行了一個多月,達到了預期效果。
隨著模型參數數量的增加,訓練所需要的GPU數量和天數也在增加。2022年,英偉達開始銷售用于大模型的H100張量核GPU,H100的FP64、FP32、FP16和INT8計算性能均比上一代A100提高了3倍,從而在全球市場內造成瘋搶及產品短缺。根據其最新的財務報告,英偉達在2024財年實現了總收入609億美元,同比增長126%。其中,數據中心業務表現尤為突出,全年收入達到475億美元,同比增長217%。在數據中心GPU領域,英偉達的市場份額更是達到98%,顯示出其在該領域的絕對優勢。
表1.2 2010年以來GPU技術指標的演進

注:GDDR指圖形雙倍數據速率(Graphics Double Data Rate)。
來源:英偉達。
英偉達H100 GPU芯片(見圖1.6)是臺灣積體電路制造股份有限公司(簡稱臺積電)用為英偉達定制的4nm工藝制造的,有800億個晶體管,而基于7nm工藝的A100有542億個晶體管。H100的裸片面積為814mm2,比A100小12mm2。此外,H100具有更高的時鐘頻率和更好的性能/功率比。H100是第一款支持第5代高速外設組件互連標準(Peripheral Component Interconnect Express,PCIe)的GPU,也是全球第一款采用4nm工藝和HBM3內存(3TB/s)的新一代AI芯片,每塊芯片的市場銷售價格超過30 000美元。

圖1.6 英偉達H100 GPU芯片(來源:英偉達)
H100是基于英偉達2022年發布的GPU架構Hopper設計的,目標就是HPC和AI應用。整個Hopper架構由8個圖形處理集群(Graphics Processing Cluster,GPC)“拼接”組成,每4個GPC共享25MB的L2緩存。H100還集成了紋理處理集群(Texture Processing Cluster,TPC)、流式多處理器(Streaming Multiprocessor,SM)、L2緩存和HBM3內存控制器等模塊。Hopper架構的主要變化體現在新型線程塊集群技術和新一代的流式多處理器,它取得顯著性能提升的主要技術支撐如下。
(1)張量核(Tensor Core)。傳統的SIMD處理器在進行深度學習的MAC運算時會出現性能下降的情況。這是因為SIMD計算單元本質上是為加速圖形操作而開發的,并不適合需要大量MAC運算的大型神經網絡的訓練。因此,除了著色器核,英偉達在2017年隨Volta架構推出了張量核,可以有效地進行通用矩陣-矩陣乘法計算。張量核是專門用于流式多處理器中MAC運算的組合邏輯,受益于高速連接的圖形存儲器。張量核經常被稱為“AI處理單元”。第四代張量核支持FP8、FP16、FP32和INT8這4種精度的計算,并采用了新的混合精度計算技術,可大幅提高AI訓練和推理的性能。
圖1.7所示為GPU中流式多處理器處理塊的框圖,一對張量核與其他傳統的GPU流水線組件共享處理塊的調度資源,如寄存器文件和線程束調度器。一個張量核由四元素點積(Four-element Dot Product,FEDP)組成,共同執行4×4個MAC操作。執行四元素點積操作的張量核的吞吐率比英偉達傳統的計算統一設備體系結構(Compute Unified Device Architecture,CUDA)核更高[2]。一個線程束(Warp)包含32個線程的基本調度單元,其中一個四線程小組被稱為線程組,每個線程組利用張量核處理4行8列的數據塊。兩個線程組協力處理數據,共同生成一個8行8列的數據塊。由于每個Warp包含4個8行8列的數據塊,因此可以并行處理一個16行16列的矩陣,并利用矩陣乘積累加運算操作進行計算。

圖1.7 GPU中流式多處理器處理塊的框圖[2]
(2)Transformer引擎。Transformer引擎是Hopper架構中專為AI訓練而設計的新引擎。Transformer引擎采用了混合精度計算技術,支持FP8、FP16和FP32這3種精度。Transformer引擎可將Transformer模型的訓練速度提高多達9倍,耗時從幾周縮短到幾天。新的Transformer引擎可以應用FP8(A100新引入)和FP16數據格式,以大大加快Transformer模型的AI計算速度。張量核的操作在FP8數據格式上的吞吐率是16位操作的兩倍,也只需要后者一半的內存容量。Transformer引擎能夠根據啟發式程序在不同的格式之間進行動態切換,以顯著提高Transformer模型的訓練速度。
(3)NVLink Switch系統。NVLink Switch系統是Hopper架構中用于GPU間互連的新系統。NVLink Switch系統可為大規模GPU集群提供更高的性能和可擴展性。第三代NVLink Switch系統是為A100 GPU推出的,它提升了連接的數量、速度和帶寬。英偉達在2022年正式將NVLink Switch改名為NVSwitch,它的結構和操作如圖1.8所示。

圖1.8 NVSwitch的結構和操作(來源:英偉達)[2]
[2] 圖中,NIC指網絡接口卡(Network Interface Card),PEX Switch指PCI高速交換機(PCI Express Switch),NVMe指非易失性存儲器高速(Non-volatile Memory Express)傳輸協議。
用于GPU間直接連接的第四代NVLink配備了錯誤檢測和重放機制等功能。與A100中的第三代NVSwitch相比,新一代NVLink的通信帶寬提高了1.5倍。每塊H100芯片配備了18組第四代NVLink,總帶寬為900GB/s,大約是PCIe 5.0的7倍。
為了擴展數據中心,英偉達開發了帶有第四代NVLink的NVSwitch。這是一種類似無限帶寬技術(InfiniBand)和以太網的網絡結構。每個NVSwitch模塊擁有64個NVLink端口,并內置英偉達的可擴展分層聚合與歸約協議(Scalable Hierarchical Aggregation and Reduction Protocol,SHARP)引擎,用于在網絡中加速歸約操作(Reduction)和組播(Multicast),以優化數據傳輸和計算效率。
NVLink網絡可以連接多達256塊H100芯片,總帶寬可達57.6TB/s。英偉達打算在所有該公司的芯片[包括GPU、CPU和系統級芯片(System on Chip,SoC)]中使用NVLink,同時也將NVLink標準提供給客戶和合作伙伴,用于開發配套芯片。
(4)機密計算。H100首次增加了機密計算的功能,用于防御硬件和軟件攻擊,保護用戶數據。這種功能使得AI模型和客戶數據在處理過程中得到保護。這意味著H100不僅可以在有敏感數據的行業(如醫療保健或金融服務)中實現分布式學習,也可以在共享的云基礎設施中使用。H100以PCIe傳輸速率對數據傳輸進行加密和解密。它提供了一個由集成的硬件防火墻創建并可以物理隔離的可信執行環境(Trusted Execution Environment,TEE),能夠確保整個工作負載的數據安全。這樣就可以讓多個機構合作訓練AI模型,而不必分享各家機構的專有數據集。H100是產業界第一款原生機密計算GPU。
(5)HBM。HBM是一種3D堆疊的同步動態隨機存儲器(Synchronous Dynamic Random Access Memory,SDRAM),用于高速計算機內存接口,最初來自三星(SAMSUNG)、AMD和SK海力士(SK hynix)。使用HBM可以大幅提高內存帶寬,這是近年來GPU的重大改進措施之一。GPU已經集成了更強大(體現在更快的訪問速度和更高的通信帶寬)的動態隨機存儲器(Dynamic Random Access Memory,DRAM)。英偉達在P100、A100、H100 GPU中分別集成了HBM2、HBM2e和HBM3內存。HBM3內存子系統提供的帶寬是上一代的近2倍。
HBM的關鍵技術是3D堆疊,即把同一封裝里的多個裸片堆疊在一起。這種技術不僅能減少芯片的功耗并縮小面積,還能夠使芯片在一定成本范圍內大大提高性能。在GPU、FPGA、ASIC等AI芯片中,HBM均發揮了重要作用。第一代HBM于2013年10月被固態技術協會(Joint Electron Device Engineering Council,JEDEC)采納為行業標準,第一款HBM內存芯片由SK海力士于2013年生產。而第一款使用HBM的處理器芯片是AMD于2015年發布的代號為“Fiji”的GPU芯片。經過多年的不斷改進,HBM標準的第三代——HBM3于2022年1月由JEDEC正式發布。H100中配備了5個可運行的HBM3內存堆棧(電路板上實際安裝了6個堆棧)。這些堆棧提供了總計80GB的隨機存儲器(Random Access Memory,RAM)和3TB/s的內存帶寬(每個堆棧包含16GB RAM,并具有600GB/s的帶寬)。
英偉達已經在B100、B200中集成了HBM3e內存。這種內存不僅提供了更高的帶寬和能效,每個堆棧的帶寬超過1.2TB/s(HBM3為819GB/s),還支持更高的頻率(達到9.2Gbit/s或更高)。另外,HBM4預計于2026年開始量產。
H100是第一款真正的異步GPU,它擴展了A100跨所有地址空間的全局到共享的異步傳輸,并增加了對張量內存訪問模式的支持。H100使應用程序能夠構建端到端的異步通道,將數據移入和移出芯片,并完全重疊和隱藏數據的移動與計算。
2024年4月,當基于Hopper架構的H100的市場需求還相當旺盛的時候,英偉達又推出了新一代的Blackwell架構及基于該架構的B100、B200芯片。英偉達公布的幾項關鍵數據令人印象深刻:2080億個晶體管;適用于AI的以FP8精度計算稀疏矩陣;可達每秒10萬億次浮點運算(10TFLOPS)的計算性能,這比上一代產品提高了2.5倍;8個堆疊的HBM3,內存容量為192GB;傳輸速率達8TB/s,這比上一代產品高出2/3。
與許多競爭對手一樣,英偉達在Blackwell架構中也使用了芯粒技術(見第4章)。Blackwell B200結合了兩個相同的硅基芯片(裸片面積約為800mm2)和8個HBM3e堆疊內存模塊,通過被稱為高帶寬接口(High Bandwidth Interface,HBI)的接口技術連接兩個芯片,總傳輸速率為10TB/s。第5代NVLink是Blackwell架構關鍵組件之一,它的傳輸速率比上一代提高了一倍,達到1.8TB/s。通過適當更新的NVSwitch,一個連接域中最多可連接576個GPU,并可以全速訪問其他芯片的內存。總的來說,新一代NVLink可使AI超級計算機裝載10萬塊GPU芯片。
英偉達新的GPU可以有選擇性地將計算精度降至FP6甚至FP4,該過程由Blackwell計算單元進行處理。在理想情況下,FP4可以在相同的內存容量下容納比FP8大兩倍的AI模型,計算速度也是FP8的兩倍。縮減后的數據格式只用于選定的操作,這意味著計算結果的精確度只是略有降低。
GPU并非英偉達的獨家產品,這個領域中的第二大“玩家”是AMD。AMD的GPU在某種程度上比目前英偉達H100的性能更強大、浮點精度更高。越來越明顯的是,AMD的Radeon Instinct系列產品可以成為英偉達深度學習GPU的替代品。
這兩家制造商都提供專門為自家產品開發的軟件庫。CUDA為專用于英偉達GPU的并行運行應用程序。它由一個API和一個C語言庫集合組成。在英偉達不斷擴大其CUDA平臺的同時,AMD則依靠開源框架Radeon開放計算平臺(Radeon Open Compute Platform,ROCm)開發專業計算和機器學習應用。利用這些工具和庫,開發者可以在AMD GPU上運行并行應用。ROCm目前只適用于Linux,并適用于基于AMD的GPU指令集架構——計算DNA(Compute DNA,CDNA)的AMD計算卡,也支持一些基于RDNA-2(Radeon DNA-2)微架構的模型。當前ROCm版本的TensorFlow和PyTorch在Linux上有接口。
英特爾目前只提供適合推理的GPU,但正在研究更強大的GPU。該公司的Max系列在F32計算中部分實現了與英偉達和AMD的GPU類似的性能。然而,該公司F16的產品性能尚無競爭力,與常見深度學習框架的兼容性也需要改進。
訓練AI模型的效果不僅取決于GPU的特性,還取決于GPU的數量。如果使用多塊GPU并行訓練,性能幾乎可以線性地提高。通常情況下,一臺服務器中可能裝有2塊、4塊或8塊GPU。然而,由于空間限制及電源和散熱要求,為確保最佳性能和穩定性,常常限制到4塊GPU。
每臺服務器的GPU數量也受到CPU及其PCIe控制器的限制。高端GPU需要16條PCIe通道,以便在GPU和CPU或主內存之間進行有效的數據交換。一臺4U服務器機箱中的雙CPU系統有足夠的空間和PCIe通道來容納多達8塊GPU芯片。
目前,一臺服務器中超過8塊GPU芯片的擴展是不常見的。下一步擴展是將幾臺8塊GPU芯片的服務器結合起來,這些服務器的節點通過100Gbit/s以太網連接,形成一個集群。目前的規模限制似乎僅是經濟原因。舉個例子,大模型LLaMA-65B是在一個有256臺服務器的集群上訓練的,每臺服務器有8塊GPU芯片,也就是說,總共有2048塊GPU芯片。類似的設置也被用來訓練GPT-3和GPT-4,即ChatGPT所基于的深度學習模型。
GPU擴展需要使用多塊相同的GPU芯片,而不能混用不同的GPU芯片。這是因為最慢的GPU芯片會形成瓶頸,并決定每塊GPU芯片在并行操作中可能實現的最大性能。幾塊便宜的GPU芯片加起來會比一塊高一個性能級別的GPU芯片更加強大,而且價格可能比后者更便宜。
英偉達把H100、B100、B200等用于AI的GPU與其他各種芯片和組件組合成名為HGX的系統,并將其銷售給運行超級計算機的大型IT公司。HGX H100由3.5萬個組件組成,集成了1萬億個晶體管。英偉達還向數據中心銷售名為DGX的GPU服務器(如DGX B200,每塊GPU的液冷功率高達1000W)。英偉達還有一款由兩塊Blackwell GPU和一塊Grace ARM處理器組成的三芯片組合服務器,被稱為GB200,功耗高達2.7kW,其中每塊Blackwell GPU分配1.2kW。可以看出,英偉達不僅開展獨立的芯片業務,還銷售組合而成的整個服務器。英特爾和AMD則僅開展獨立芯片業務。
隨著生成式AI的蓬勃發展,GPU服務器即將成為主角。它的內部結構與傳統服務器截然不同。英偉達的DGX H100 GPU服務器由安裝在8U機箱中的8塊H100組成,從頂部看,GPU托盤上有8塊H100,主板上有CPU和主內存,電源位置上有6臺3.3kW電源。機箱前部的“前籠”有12個巨大的冷卻風扇,每分鐘可將約31m3的空氣吸入機箱,并以熱空氣的形式排出。如果在數據中心安裝大量這類新款GPU服務器,那么數據中心必須具備冷卻如此多熱空氣的能力。
要訓練以GPT-3為代表的千億參數級的大模型,對GPU內存和GPU性能的要求極高,即使是擁有640GB GPU內存的單臺DGX H100也無法達到要求,而需要將多臺GPU服務器連接在一起。因此,一臺DGX H100中的每塊GPU可以通過400Gbit/s的InfiniBand高速網絡連接到另一臺DGX H100或其他機箱中的GPU。這用到了一項名為GPUDirect的創新技術,該技術可讓GPU不通過服務器的CPU即可相互通信。
目前,英偉達的GPU在訓練大型AI模型的市場中占據主導地位(有數據表明,截至2023年年底,該公司GPU的市場占有率超過92%)。AMD也在這類市場中獲益不少。
Blackwell GPU的升級版——Blackwell Ultra已于2025年推出。Blackwell Ultra采用12層而非8層HBM3e內存,這將把直接連接到GPU的內存從192GB增加到288GB。隨后,配備同名GPU和HBM4 RAM的Rubin架構以及ARM處理器Vera將于2026年推出。Rubin Ultra的升級版將于2027年推出,它的HBM4內存堆棧將從8個增加到12個。
除了用于大型AI模型訓練,GPU也可以更廣泛地用于大型AI模型推理。
使用GPU進行AI加速也有缺點。首先,為了確保高可編程性,與其他加速器相比,AI加速器的能效相對較低。在其他AI加速器中,為AI加速的控制邏輯得到了優化,架構做得較簡單;而GPU不僅是為AI加速而設計的,還具有相當復雜的控制邏輯,用來支持各種并行處理和圖形處理的架構。這導致GPU在進行AI加速時效率較低。因此,GPU在加速AI時需要消耗比其他器件更多的能量。其次,由于GPU是為通用目的而設計的,它并沒有像其他加速器那樣有特定的計算邏輯來加速AI功能。這一特點不僅降低了GPU的效率,而且使整個過程的吞吐率比其他加速器低。最后,GPU的單位面積計算能力低于其他加速器,而且外形尺寸也較大。正如上面所提及的,GPU的控制邏輯和架構要比其他AI加速器復雜得多,因此它所占用的面積及單位面積的計算能力不如其他加速器有競爭力。以上這些缺點使得GPU并不十分適用于那些對功耗和面積敏感的邊緣設備。