- AI芯片:科技探索與AGI愿景
- 張臣雄
- 2668字
- 2025-08-07 17:50:39
1.4 AI芯片的算力提升與能耗挑戰
OpenAI的一項研究揭示了1985年以來AI計算量的驚人增長[4],如圖1.13所示。根據每個模型訓練計算量翻番的時間,這項研究把AI的發展歷程劃分為3個時代:前深度學習時代(2012年前,訓練計算量約每24個月翻一番),深度學習時代(2012—2017年,訓練計算量每3~4個月翻一番),以及大模型時代(2018—2022年,模型規模提升了100~10 000倍,訓練計算量接近每兩個月翻一番[4],見圖1.13右側)。

圖1.13 1985年以來AI計算量的增長情況
從圖1.13可以看出,從BERT到GPT-3,在不到3年的時間里,模型大小增長了約100倍,計算量增長了約10 000倍。為了滿足高速增長的計算量,就要有高性能的AI芯片。隨著AI大模型無止境地增長(如參數規模、序列長度),AI芯片面臨著巨大壓力。
現在的單片芯片里雖然已經動輒包含幾百億個晶體管,但要滿足大模型發展所需要的計算量要求還相差甚遠。因此,現在訓練大模型必須使用大型的集群,這些集群連接了成千上萬塊AI芯片進行并行計算。即使這樣,仍然需要運行幾個星期,甚至幾個月才能取得讓人滿意的訓練結果。因此,訓練一個大模型,僅能源成本就可能高達1000萬美元。
目前的芯片一般為硅基芯片,會消耗大量電能,同時產生大量熱量。如何持續、有效地散熱,對放置這些集群機架的數據中心來說也是一大挑戰。因此,近年來不斷出現新的散熱技術。產業界已經在散熱技術上取得共識,即液體散熱要比氣體散熱效果好。因此,液體散熱已逐漸成為數據中心的一個“標準配置”,不僅會在機架、服務器上采用液體散熱,一些新款芯片也會在內部直接通過微細管用液體散熱(第4章將會詳細介紹)。而這又將產生對大量水資源的需求。據美國半導體行業協會估計,2020年全球芯片制造用水量約為156億立方米。而據國際能源署估計,2020年全球數據中心用水量約為370億立方米。數據中心用水量總體上比芯片制造用水量更多。隨著數據中心散熱方式“由氣轉水”,數據中心的用水量在未來還將大增。據英國《金融時報》引述科學界的看法,在2027年之前,數據中心的用水量將年增42億~66億立方米。
盡管芯片的散熱問題可以得到很大程度的緩解,但是電力消耗帶來的二氧化碳大量排放問題無法得到解決,而且散熱還造成了更多的二氧化碳排放。這不僅會加劇全球氣候變暖、海平面上升、海洋酸化,還會導致極端天氣事件發生頻率和強度的增加。
總之,不解決高能耗問題,AI驅動型社會的可持續發展就無從談起。
除了嚴重的生態環境、自然資源問題,從技術角度來看,目前AI芯片的進一步發展還遇到了各種“墻”的阻礙:光刻墻、性能墻、傳輸墻、功耗墻、成本墻等,也包含可持續發展墻(見圖1.14)。

圖1.14 AI芯片進一步發展面臨的6堵“墻”
(1)光刻墻。隨著芯片工藝尺寸不斷縮小,逐漸逼近光刻技術的極限,光刻機的微細化越來越困難,難以滿足AI芯片對更高性能、更低功耗的需求。
(2)性能墻。一方面,隨著晶體管尺寸接近物理極限,摩爾定律的效力逐漸減弱,同時晶體管密度越來越高帶來了功耗和散熱問題,芯片性能提升的速度開始放緩。另一方面,以深度學習為代表的AI算法需要訓練大量數據,而數據處理和存儲需要消耗大量計算資源,這限制了AI芯片性能的進一步提升。
(3)傳輸墻。AI芯片上處理器核與存儲器之間的數據傳輸成了瓶頸,同時AI芯片對內存帶寬和時延提出了更高的要求,傳統的DRAM已經無法滿足需求。目前,用存算一體化技術實現的芯片規模都比較小,需要擴大芯片規模。最近10多年以來,存儲器性能的提升遠遠落后于處理器性能的提升,尤其是存儲器帶寬并沒有太多進步。
(4)功耗墻。AI芯片功耗的不斷增加給數據中心的散熱和運營成本帶來了巨大挑戰。
(5)成本墻。由于設計和制造成本的不斷增加,使AI芯片在更多應用場景的普及受到限制。
(6)可持續發展墻。AI芯片的制造與運行都會排放二氧化碳,隨著芯片工藝的進步,二氧化碳排放量急劇增長。由于效率低下,即使是大公司,其AI體系也開始達到電力消費的極限,并且相關的能耗仍在呈指數級增長,不久將會達到需要專門核電站供電的程度[4],這種發展是不可持續的。
[4] 亞馬遜、微軟和谷歌都在為新型核電站的開發和建設提供資金。這些核電站使用小型核反應堆,將直接位于數據中心附近。
總之,目前的AI芯片發展模式,即基于深度學習算法和模型,使用硅材料、晶體管架構和制造工藝來制造AI芯片,是不可持續的。要解決這個問題,必須對算法、芯片和軟件進行如下重大創新。
(1)算法/模型創新。算法/模型創新是AI芯片可持續發展的核心驅動力。深度學習算法及模型一直是這次AI熱潮的主流技術。隨著生成式AI模型無節制地擴展規模,對AI芯片的各種性能要求已經大大超出它們本身能夠達到的程度。從短期來看,在設計基于深度學習的芯片時,需要用創新的方法加以改進,以提高性能、降低功耗;從長期來看,必須從源頭上對AI算法進行重新思考,理想目標是找到一種既不需要大數據,也不需要大模型,還能達成高智力水平的AI算法。
(2)工藝/器件創新。晶體管、半導體芯片的設計和制造正在向著2nm、1nm及亞納米級(埃米級)的先進工藝發展,這個目標需要各種創新技術配合來實現。目前,芯粒和異質集成等技術正在蓬勃發展,且有其他技術來取代極紫外(Extreme Ultraviolet,EUV)光刻技術。芯片正在走向立體:未來的芯片不會是芯“片”,而是芯“塊”。
(3)材料創新。目前,基于摩爾定律發展的硅基芯片快接近終點,二維材料、固態離子材料等很有可能會成為硅的后續材料。從長期目標來看,需要有更適合仿腦功能的材料(包括化學和生物材料)來制造AI元件。在跨學科研究人員的協同努力下,用這些材料制作AI元件已經見到曙光,這類AI元件的形態與當前的芯片(硬件)不同,是呈液態的濕件。
(4)系統創新。目前在用的基于深度學習模型的AI系統只能較低程度地模仿人類大腦的功能。類腦芯片則邁進了一步:基本上按照人類大腦的功能和結構來設計。然而,僅模仿人類大腦是不夠的,因為人類的智能除了認知功能,還包括感知功能。具身智能既包含了認知功能,又包含了感知功能,由此研發的芯片把AI的智能水平提升了一大步。AGI芯片是AI發展的終極目標,盡管目前AGI的定義以及它什么時候能夠實現還存在巨大的爭議。
(5)應用創新。應用創新是指針對特定AI應用場景進行優化,以便開發更高效的算法和芯片。這些場景與整個社會的未來發展緊密相關,例如人與人、人與機器、機器與機器之間的通信和溝通;AI自主控制的無人駕駛汽車、船舶、飛機等。那些對人類發展和進步起到巨大作用的科學發現、技術發明,如果有AI幫助人類來實現,或者完全由AI自主實現,將會對人類未來的生產和生活產生深遠的影響。這將加速科學進步,提升技術水平,創造新的生活方式,從而使人類社會更加美好。