官术网_书友最值得收藏!

1.2.4 ASIC

雖然英特爾在CPU中不斷增強AI功能,英偉達的GPU引領(lǐng)著AI訓練市場的發(fā)展潮流,但ASIC AI芯片的開發(fā)也正在飛快加速。一些知名的大公司和世界各地的新創(chuàng)公司正計劃用比GPU更快、更省電的ASIC來挑戰(zhàn)英偉達GPU在AI訓練領(lǐng)域的主導地位。

1.2.4.1 大公司的ASIC AI芯片

一些世界知名的非半導體制造大公司也在積極開發(fā)ASIC AI芯片。谷歌在2016年發(fā)布的TPU就是一個開創(chuàng)性的例子。該芯片最初是為谷歌自己的數(shù)據(jù)中心準備的,但在2018年,它開始以“云TPU”的形式在云端對外提供服務。美國Meta(原名Facebook)于2023年5月宣布推出Meta訓練推理加速器(Meta Training Inference Accelerator,MTIA),該加速器增強了Facebook等網(wǎng)站對用戶的推薦功能。而美國特斯拉則為自動駕駛開發(fā)了D1芯片。微軟也在研發(fā)代號為“Athena”的AI芯片。亞馬遜網(wǎng)絡服務(Amazon Web Services,AWS)還集成了其自主研發(fā)的Trainium 2和Inferentia芯片,用于AI模型的訓練和推理。甚至連以研發(fā)GPU著稱的英偉達,也在2024年底宣布將成立新部門進行ASIC芯片設計,并進軍ASIC市場。

英特爾的Gaudi 2和Gaudi 3芯片已經(jīng)擁有價值10億美元的訂單。2024年4月發(fā)布的Gaudi 3憑借更強的計算能力、高出50%的內(nèi)存?zhèn)鬏斔俾剩约爸辽?28GB的HBM超過了英偉達H100的訓練性能,勢必在AI芯片市場上分一杯羹。AMD也奮起直追,新款處理器MI300X是純粹的計算加速器,吞吐率比英偉達的H100高出30%~140%。

ASIC的結(jié)構(gòu)因不同的開發(fā)公司而異,但與FPGA一樣,它們采用了數(shù)據(jù)流類型或縮短存儲器與運算單元之間距離的方式,可以提高能效和計算速度。在21世紀10年代,深度學習被應用在大量小規(guī)模的密集矩陣運算中,GPU在這一領(lǐng)域表現(xiàn)出色。然而,從2019年開始爆發(fā)式增長的大模型的關(guān)鍵在于稀疏矩陣運算,這會導致GPU浪費大量計算資源。與原來用于圖形處理的GPU相比,ASIC可以高效地處理推理與學習,這讓許多產(chǎn)品具有較低的產(chǎn)品和計算成本。特別是在基于生成式AI的計算處理方面,目前以通用GPU為主流的格局將被ASIC的大規(guī)模部署取代。

在2021年第四季度,谷歌給客戶提供了雙核TPU v4芯片作為AI訓練引擎,并將每個內(nèi)核中的矩陣乘法單元(Matrix Multiply Unit,MXU)數(shù)量翻了一番。該芯片的面積約為780mm2,具有32GB的HBM。TPU v4體現(xiàn)了計算引擎的真正升級,工藝從上一代的16nm縮小到7nm,并且具有相當高的性能。谷歌還可以大規(guī)模擴展TPU v4 POD[3]。雖然英偉達聲稱可以將多達256塊H100與NVSwitch結(jié)構(gòu)緊密耦合,但TPU v4的新3D環(huán)形互連支持更高的帶寬和性能,它可以緊密耦合4096塊TPU v4芯片,實現(xiàn)總計可達1.126EFLOPS的BF16(谷歌為其TPU發(fā)明的數(shù)據(jù)格式)計算。在4096塊TPU v4芯片上同時處理的AI工作負載并不多,這就是3D環(huán)形互連有用的原因。它允許將機器切成緊密耦合的塊,這些塊仍然相互連接,以共享工作。


[3] POD(Performance Optimized Datacenter,優(yōu)化性能數(shù)據(jù)中心)是一種由多臺服務器組成的模塊化計算單元,通常包含數(shù)百或數(shù)千臺服務器。多個POD可以形成一個能夠容納數(shù)萬臺服務器(包含數(shù)萬塊甚至更多芯片)的集群(Cluster),用于處理更大規(guī)模的任務。

2023年8月,谷歌推出了TPU v5e芯片,它適用于主流IT廠家,是為大規(guī)模、中等規(guī)模AI訓練和推理打造的優(yōu)化版芯片,用于在虛擬環(huán)境中大規(guī)模編排AI工作負載。TPU v5e將用于訓練谷歌搜索、地圖和在線生產(chǎn)力應用程序中使用的較新的PaLM和PaLM 2大模型。該芯片的INT8性能峰值為393TFLOPS,優(yōu)于TPU v4的275TFLOPS。

TPU v5e支持8種不同的虛擬機配置,范圍從1塊芯片到單個實例中的250多塊芯片。這一功能允許客戶選擇適合的配置,以滿足各種大模型和生成式AI模型的需求。每塊TPU v5e配備4個矩陣乘法單元,可以執(zhí)行BF16乘法和FP32累加操作(有時根據(jù)模型需要進行INT8推理)。另外,TPU v5e還有1個向量處理單元和1個標量處理單元,它們都連接到HBM2內(nèi)存(見圖1.10)。TPU v4和TPU v4i(TPU v4的單核版)采用相同的臺積電7nm工藝制造,TPU v5e采用5nm工藝制造。

圖1.10 TPU v5e的張量核

為了應對稀疏矩陣處理,谷歌開發(fā)了專門的硬件加速器,被稱為稀疏核(Sparse Core)。它被嵌入TPU v4i、TPU v4和TPU v5e中,用于稀疏矩陣中的發(fā)散(Scatter)和收集(Gather)操作。另外,該公司采用液冷方法幫助散熱,可以最大限度地提高系統(tǒng)能效,從而提高經(jīng)濟效益。

在集群中連接時,TPU v5e的配置可以擴展到數(shù)百或數(shù)千塊芯片,并處理更大的訓練和推理模型。通過TPU v5e,該公司推出了一種名為Multislice的技術(shù),允許用戶輕松擴展AI模型,超越物理TPU集群的范圍,最多可容納數(shù)萬塊Cloud TPU v5e或TPU v4,最多可以在256個TPU v5e集群中部署64個虛擬機。這是一種將AI模型分配給數(shù)萬塊TPU的方法,已經(jīng)被應用在谷歌公司最先進的PaLM模型的構(gòu)建中。通過單個集群內(nèi)的芯片間互連(Inter Chip Interconnect,ICI)或數(shù)據(jù)中心網(wǎng)絡(Data Center Network,DCN)上的多個POD,可將工作負載擴展到多達數(shù)萬塊TPU芯片。芯片和集群連接都使用光交換機和光互連技術(shù),允許每個機架獨立運行并動態(tài)互連。該技術(shù)還允許谷歌根據(jù)應用快速重新配置網(wǎng)絡拓撲。

谷歌正著力簡化TPU的操作。TPU v5e可與谷歌Kubernetes引擎(GKE)、Vertex AI、PyTorch、JAX、TensorFlow等主流框架集成,并對各種主流開源工具提供內(nèi)置支持,方便開發(fā)者使用熟悉的界面。

2024年5月,谷歌推出了第六代TPU,稱為TPU Trillium。與上一代(TPU v5e)相比,這款TPU的性能提高了4.7倍以上,能效也大大提高,將為訓練下一代高端AI大模型提供有力的幫助。

為了更快推出新的TPU,谷歌公司已經(jīng)使用其AI增強型EDA工具來幫助設計TPU v4i和TPU v4芯片的邏輯塊,很可能還用在了包括TPU v5e和TPU Trillium在內(nèi)的設計中。目前,谷歌大約要花3年時間才能推出一款ASIC,其中6~12個月用于設計分析,1年用于設計實現(xiàn),6個月用于晶圓廠流片,12個月用于投入生產(chǎn)、測試和改進。顯然,芯片設計越接近最新的AI模型和算法越好,因此需要盡可能縮短上市時間。現(xiàn)在很多公司都在嘗試“用AI設計AI”(如英偉達H100就是用AI設計的),有的甚至直接用基于大模型的自然語言來設計AI芯片。

1.2.4.2 參與競爭的ASIC新創(chuàng)公司

近年來,希望打入AI芯片市場的新創(chuàng)公司不斷涌現(xiàn)。這些新創(chuàng)公司要么擁有一些大型AI訓練芯片,要么擁有一些超快速的小型AI推理芯片,或者可能是針對某個AI應用試圖解決的特定問題的專門設計。其中一些新創(chuàng)公司資金充裕,投資資金在1億美元以上,有的甚至有超過10億美元資金支持。

1.Tachyum

Tachyum是一家兼有美國和歐盟背景的芯片新創(chuàng)公司,它于2018年創(chuàng)建,產(chǎn)品涵蓋多個市場領(lǐng)域。2022年,該公司對原來的芯片設計版本做了大量改進,推出了Prodigy 2022芯片。這個“龐然大物”有128個處理器核、每核有兩個1024位向量處理單元,時鐘頻率為5.7GHz,DRAM吞吐率為1TB/s,頂配功率可達950W。當時有新聞文章稱Prodigy 2022是比AMD的64核Milan更快的通用CPU,有能與英特爾的Ponte Vecchio媲美的SIMD加速器,而且可以比英偉達H100更快地執(zhí)行AI操作——所有這些都在一塊芯片中!

Prodigy 2022的裸片面積約為500mm2。Tachyum發(fā)布的裸片平面圖顯示,Prodigy 2022中每個核的尺寸小于3mm2,內(nèi)核面積小意味著熱密度非常高。讓一塊幾乎無所不能的芯片達到5.7GHz的時鐘頻率很難,尤其對一家小型新創(chuàng)公司。雖然它采用先進的臺積電5nm工藝,但是通過巨大的向量處理單元、高內(nèi)核數(shù)和相對較短的流水線來實現(xiàn)這個時鐘頻率有著巨大挑戰(zhàn)。例如,Prodigy 2022需要極其強勁的冷卻保障。因為它采用500mm2封裝,而950W功率使得整塊芯片上的功率密度接近2W/mm2,這是英偉達H100功率密度(0.875W/mm2)的兩倍多。該芯片量產(chǎn)時能否解決上述挑戰(zhàn),仍有待觀察。

Tachyum計劃基于臺積電的3nm工藝推出Prodigy 2。該芯片將支持更多內(nèi)核,以及PCIe 6.0和計算高速互連(Compute Express Link,CXL)標準。即使時鐘頻率低于原定目標,Tachyum的Prodigy系列也很有可能成為市場上具有競爭力的AI芯片。需要高算力、高吞吐率的AI應用可以從Prodigy系列的向量處理單元中受益。

2.Cerebras

2019年,位于美國硅谷的新創(chuàng)公司Cerebras首次推出了一款名為“晶圓級引擎”的AI芯片,該芯片有1.2萬億個晶體管、40萬個內(nèi)核及18GB的片上存儲器。這些數(shù)據(jù)是驚人的。2022年,Cerebras發(fā)布了“晶圓級引擎”芯片的下一代AI芯片——WSE-2,該芯片擁有2.6萬億個晶體管、85萬個內(nèi)核、40GB的片上存儲器和20PB/s的內(nèi)存帶寬。

2024年3月,Cerebras推出了WSE-3。在相同的功耗和相同的價格下,WSE-3的性能是之前的紀錄保持者WSE-2的兩倍,從而保持了“最快的AI芯片”的世界紀錄。基于5nm工藝、擁有4萬億個晶體管的WSE-3專為訓練最大的生成式AI模型而構(gòu)建,并為Cerebras CS-3 AI超級計算機提供動力。WSE-3可通過900 000個AI優(yōu)化計算核提供峰值為125PFLOPS的AI性能。

Cerebras強調(diào),完成AI計算需要“系統(tǒng)級思考”。該公司提供的系統(tǒng)解決方案CS-3包括3方面的創(chuàng)新:WSE-3、Cerebras系統(tǒng)及Cerebras軟件平臺。

CS-3擁有包括44GB片上SRAM、1.2PB外部存儲器的巨大存儲系統(tǒng),旨在訓練比GPT-4和Gemini的參數(shù)量大10倍的下一代大模型。在CS-3上,24萬億個參數(shù)的模型可以被存儲在單個邏輯內(nèi)存空間中,無須分區(qū)或重構(gòu),這極大地簡化了訓練工作流程,并提高了開發(fā)人員的工作效率。在CS-3上訓練1萬億個參數(shù)的模型就像在GPU上訓練10億個參數(shù)的模型一樣簡單。

CS-3專為滿足企業(yè)級和超大規(guī)模訓練需求而打造,它緊湊的四系統(tǒng)配置可以在一天內(nèi)微調(diào)700億個參數(shù)的模型。若使用2048個系統(tǒng)進行全量微調(diào),700億個參數(shù)版本的LLaMA 3模型可以在一天內(nèi)完成訓練。對生成式AI來說,這是前所未有的壯舉,是其他AI芯片(包括目前最新款的GPU)完全無法做到的事情。

新版本的Cerebras軟件框架可為PyTorch 2.0和多模態(tài)模型、視覺Transformer模型、混合專家(Mixture of Experts,MoE)和擴散模型等最新的AI模型和技術(shù)提供原生支持。Cerebras也可以訓練稀疏度超過90%的模型,并達到目前最先進的精度指標。

2022年11月,Cerebras推出了擁有1350萬個內(nèi)核的AI超級計算機——Andromeda,為大模型提供近乎完美的線性擴展能力。Andromeda是一款模塊化的超級計算機,相當于由16個Cerebras CS-2系統(tǒng)組成的集群,可以提供超過1EFLOPS的AI計算性能和120PFLOPS的16位半精度密集計算性能。該計算機現(xiàn)已被應用于商業(yè)和學術(shù)研究工作。

3.SambaNova

隨著以數(shù)據(jù)流處理為特征的應用(如自然語言處理和推薦引擎)的迅速發(fā)展,傳統(tǒng)的指令集架構(gòu)在性能和效率方面面臨的挑戰(zhàn)已顯而易見。為了應對這個挑戰(zhàn)并支持新的AI應用,新創(chuàng)公司SambaNova開發(fā)了可重構(gòu)數(shù)據(jù)流架構(gòu)(Reconfigurable Dataflow Architecture,RDA)。該架構(gòu)是一個獨特的垂直集成平臺,從算法到芯片都經(jīng)過了優(yōu)化。SambaNova致力于開發(fā)這種新型的加速計算架構(gòu),有以下3個關(guān)鍵因素。

第一,多核處理器的代際性能提升已逐漸趨緩。因此,開發(fā)人員不能再依賴傳統(tǒng)的性能提升來實現(xiàn)更復雜、更精密的應用。無論是CPU的“肥核”架構(gòu),還是GPU的“瘦核”架構(gòu),都是如此。如果基于當前的半導體芯片技術(shù)開發(fā)更多有用的功能,就需要一種新的方法。深度學習應用規(guī)模的爆炸式增長拉開了所需算力與可用算力之間的差距。根據(jù)OpenAI的一項研究,現(xiàn)在AI計算量每2個月就會翻一番,因此算力需求亟待滿足。

第二,需要能夠統(tǒng)一深度學習訓練和推理的學習系統(tǒng)。當前,由于GPU和CPU的不同特性,它們通常被分別用于AI訓練和推理。而許多現(xiàn)實生活中的AI系統(tǒng)都會發(fā)生持續(xù)變化,有時甚至是不可預測的變化,這意味著如果不頻繁更新,模型的預測準確性就會下降。同時,有效支持AI訓練和推理的架構(gòu)可以實現(xiàn)持續(xù)學習,并提高預測的準確性,還能簡化“開發(fā)-訓練-部署”的深度學習生命周期。

第三,雖然深度學習面臨著嚴峻的芯片性能挑戰(zhàn),但分析應用、科學應用,甚至SQL數(shù)據(jù)處理等其他工作負載也具有數(shù)據(jù)流特性,可以且需要加速。新方法應足夠靈活,以支持更多種類的工作負載,并促進深度學習與HPC(或與業(yè)務應用)的融合。

SambaNova推出的SambaNova Suite是首個專門構(gòu)建的全棧大模型平臺,采用了基于可重構(gòu)數(shù)據(jù)流單元(Reconfigurable Dataflow Unit,RDU)的AI芯片SN40L。SN40L是SambaNova的第四代AI芯片,使用臺積電5nm工藝,包含了1040個RDU核、1020億個晶體管,性能可達到638TFLOPS(BF16)。這款芯片專為要求最苛刻的大模型工作負載設計,既能進行密集計算,也能進行稀疏計算,還擁有大容量內(nèi)存和HBM。

SambaNova Suite包括最新開源模型,能夠提供多達5萬億個參數(shù)模型,訓練的標記(token)序列長度超過256 000。之所以能做到這一點,是因為SambaNova提供了一個完全集成的堆棧,能以更低的總擁有成本提供更高質(zhì)量的模型、更高的準確性,以及更快的推理和訓練速度。

SambaNova是AI領(lǐng)域冉冉升起的新星,具有在各種行業(yè)產(chǎn)生重大影響的潛力。

4.Graphcore

Graphcore在2022年發(fā)布了自己的智能處理單元(IPU)——Bow,這是目前世界上第一款使用3D堆疊技術(shù)的IPU。Bow在性能和能效兩方面都取得了重大突破。它是該公司新一代計算機Bow POD AI的處理器,與前一代芯片GC200相比,實現(xiàn)了高達40%的性能提升,能效也提高了16%。

Bow使用臺積電的3D堆疊技術(shù)“晶圓堆疊”(Wafer on Wafer,WoW)。WoW是把兩塊晶圓堆疊并黏合在一起,以創(chuàng)建一塊3D裸片。在Bow中,WoW中的一塊晶圓專門用于AI處理,另一塊則負責供電。

就結(jié)構(gòu)而言,Bow與GC200兼容,擁有1472個獨立的內(nèi)核,每個內(nèi)核有6個線程,并配備了超過0.9GB的內(nèi)存,數(shù)據(jù)吞吐率為65TB/s。此外,該芯片還有10個IPU連接,數(shù)據(jù)傳輸速率為320GB/s,用于處理器之間的通信,供電的晶圓配備了深溝電容。憑借WoW技術(shù),電源可以直接放在處理器和內(nèi)存旁邊,從而大幅提高了效率,這也是Bow的AI計算性能更高,能效卻只提高了16%的原因。

基于Bow可以搭建Bow-2000機架單元,這是各種Bow POD計算機系統(tǒng)的基本組件,并且與Graphcore的IPU-M2000一樣,該機架單元具有1U的機架格式。盡管架構(gòu)和外形尺寸相同,但Bow-2000實現(xiàn)了明顯更高的性能。這是因為Bow-2000包含4個Bow IPU(1.85GHz),共有5888個內(nèi)核和35 328個線程。因此,一臺1U刀片服務器可實現(xiàn)近1.4PFLOPS(FP16)的AI計算能力。此外,還有3.6GB的內(nèi)存(帶寬為260TB/s)、高達256GB的IPU流存儲器,以及一個傳輸速率達2.8TB/s的IPU連線結(jié)構(gòu)。

與10余年前惠普想建造一部采用光連接和憶阻器、以存儲器為中心的“The Machine”相似,Graphcore希望開發(fā)出一臺具備超級智能的AI計算機,名字為“Good Computer”(名字是為了紀念英國數(shù)學家Irving John Good)。這臺全面創(chuàng)新的“Good Computer”據(jù)說會有以下特點。

① AI計算能力超過10EFLOPS(浮點格式)。

② 內(nèi)存高達4PB,帶寬超過10PB/s。

③ 可用于具有500萬億個參數(shù)的AI模型。

④ 使用3D晶圓上的邏輯堆棧,擁有8192個下一代IPU。

⑤ 完全由Graphcore的Poplar SDK支持。

⑥ 成本約為1.2億美元,具體金額視配置而定。

5.Esperanto

作為一家新創(chuàng)公司,Esperanto開發(fā)了一款基于RISC-V指令集架構(gòu)的AI芯片——ET-SoC-1。該芯片可以在單芯片上運行生成式AI模型,被稱為“RISC-V片上的超級計算機”,主要特性如圖1.11所示。Esperanto生產(chǎn)了一些原型樣片供三星和其他合作伙伴評估。據(jù)報道,該芯片是1088核的RISC-V處理器,每個核都有一個AI張量加速器。Esperanto已經(jīng)公布了該芯片的一些相對的性能指標,但沒有披露任何峰值功率或峰值性能值。

圖1.11 ET-SoC-1的主要特性

從2023年開始,Esperanto把研發(fā)重點放到適用于生成式AI(以大模型為代表)的低功耗RISC-V芯片上。2023年4月,該公司宣布在ET-SoC-1芯片上成功運行生成式AI模型,這成為RISC-V行業(yè)的里程碑。值得注意的是,Meta的開放式預訓練Transformer模型的多個版本已可以在Esperanto的芯片上以多種精度級別和上下文大小運行,而且每塊芯片的推理功率低至25W。Esperanto的機器學習軟件開發(fā)套件可以在ET-SoC-1芯片上快速移植和啟動預訓練模型,該套件已被Esperanto的商業(yè)客戶使用。

6.Groq

Groq由前谷歌資深工程師喬納森·羅斯(Jonathan Ross)創(chuàng)立,他曾經(jīng)是谷歌自研AI芯片TPU的設計者之一,被稱為“TPU之父”。2024年,Groq推出了主力產(chǎn)品——針對大模型(如GPT和LLaMA)AI推理設計的語言處理單元(Language Processing Unit,LPU)ASIC芯片。

Groq的LPU在LLMPerf排行榜上超越了基于GPU的云服務提供商(如英偉達)。由該LPU驅(qū)動的Meta LLaMA 2模型的推理性能是其他頂級云計算模型的18倍。在大模型任務中,Groq的LPU的性能比英偉達的GPU高10倍,但價格和耗電量都僅為后者的1/10。這相當于性價比提高了100倍。在能耗方面,英偉達的GPU需要10~30J才能生成響應中的token,而Groq的LPU僅需1~3J。極高的token吞吐量、更低的時延、功耗和價格,使得Groq一躍成為有英偉達、AMD和英特爾等大公司參與的AI推理芯片市場的直接競爭者。

Groq的LPU擁有80TB/s的帶寬和230MB的SRAM,提供了非常快的推理速度。它沒有像英偉達的GPU那樣使用HBM,而是使用SRAM,后者的速度比前者大約快20倍。它每秒可服務高達480個token。具體到不同的模型,LPU能夠以每秒300個token的速度服務LLaMA 2-70B模型,以每秒750個token的速度服務較小的LLaMA 2-7B模型,后者的推理性能比前者翻了一番多。

LPU基于新的張量流處理器(Tensor Streaming Processor,TSP)架構(gòu),內(nèi)存單元與向量處理單元和矩陣深度學習功能單元交錯,可以利用深度學習工作負載固有的并行性對推理進行加速。在運算的同時,每個TSP都具有網(wǎng)絡交換功能,可直接通過網(wǎng)絡與其他TSP交換信息,無須依賴外部的網(wǎng)絡設備,這種設計提高了系統(tǒng)的并行處理能力和效率。

LPU的運作方式與GPU不同,它使用的是時序指令集計算機(Temporal Instruction Set Computer,TISC)架構(gòu)。與GPU使用的SIMD不同,TISC架構(gòu)不僅可以讓芯片更有效地利用每個時鐘周期,并確保一致的時延和吞吐量,還降低了復雜調(diào)度電路的需求,而不必像GPU使用HBM那樣頻繁地從內(nèi)存重載數(shù)據(jù)。另外,Groq的LPU還采用了完全確定的超長指令字(Very Long Instruction Word,VLIW)架構(gòu),即指令的執(zhí)行順序是確定的,并且可以在編譯時確定。這使得該架構(gòu)具有很高的效率和可預測性。

Groq的LPU采用格羅方德(GlobalFoundries,也稱格芯)的14nm工藝,面積約為725mm2。它沒有外部存儲器,在處理過程中,權(quán)重、K矩陣與V矩陣的緩沖和激活等都保存在芯片中。由于每塊LPU只有230MB的SRAM,因此單塊芯片實際上無法容納任何有用的模型,而必須利用許多芯片聯(lián)網(wǎng)來適應模型規(guī)模。

由于結(jié)合了新設計的Dragonfly網(wǎng)絡拓撲,Groq的LPU的跳數(shù)(經(jīng)過的路由器數(shù))減少、通信時延降低,傳輸效率進一步提高。同時,軟件調(diào)度網(wǎng)絡帶來了精確的流量控制和最短的路徑規(guī)劃,從而提高了系統(tǒng)的整體性能。LPU可進行320×320融合點積矩陣乘法,具有5120個向量算術(shù)邏輯單元(Arithmetic Logic Unit,ALU),性能指標達到750TOPS(INT8)和188TFLOPS(FP16)。

7.Etched AI

新創(chuàng)公司Etched AI正在為大模型推理構(gòu)建ASIC芯片Sohu,該公司的創(chuàng)始人將其稱為“超級智能硬件”。Etched AI的雄心是與英偉達較量,為AI推理領(lǐng)域提供動力。

Etched AI認為,目前使用GPU或者TPU訓練或推理大模型的成本都太高,解決這個問題需要重新設計大模型芯片。由于GPU或者TPU需要支持各種工作負載,因此它們的大部分電路對大模型來說沒有用處,而由此造成的成本飆升需要用戶來承擔。

如果不改進芯片設計,那么成本問題只會變得更糟。未來幾年,大模型將成為大多數(shù)產(chǎn)品架構(gòu)的關(guān)鍵部分。推理所需的計算量與現(xiàn)在使用的計算量相比將增加數(shù)千倍,而現(xiàn)在已經(jīng)處于臨界點。Etched AI正在通過一種新穎的芯片設計方法來解決這個問題,該方法在運行大模型時犧牲GPU的靈活性,以獲得更好的性能。通過這種折中的方法,該Etched AI芯片的性能是同等價位GPU集群的140倍以上。

Sohu采用臺積電的4nm工藝,內(nèi)部集成了144GB的HBM3e內(nèi)存。該芯片集成了1680個CUDA核心,與同類產(chǎn)品相比,計算性能高出約30%。在機器學習和圖像處理應用中,Sohu的功耗比其他競爭對手低20%。Sohu支持實時語音代理和多播推測解碼等功能,能夠在毫秒級別的時間內(nèi)處理大量數(shù)據(jù)。在處理高清視頻時,Sohu能夠自動調(diào)節(jié)算法,以獲得最佳畫質(zhì)與流暢度。

Etched AI將Transformer模型直接映射到了芯片架構(gòu)中,這使得Sohu在運行Transformer模型時能夠?qū)崿F(xiàn)超過90%的FLOPS利用率。這種設計消除了大多數(shù)控制邏輯,從而提高了計算效率。該芯片能在LLaMA 70B模型上每秒處理超過500 000個token,其性能被認為比英偉達的Blackwell(B200)GPU高一個數(shù)量級。

總之,Etched AI的Sohu代表了AI芯片領(lǐng)域的一次重要創(chuàng)新,有望在未來改變AI計算的格局。

1.2.4.3 中國的AI芯片新創(chuàng)公司嶄露頭角

中科寒武紀科技股份有限公司(簡稱寒武紀)是中國AI芯片的龍頭企業(yè)(按照2023年12月的數(shù)據(jù),下同)。思元290是寒武紀首款云端訓練智能芯片。思元370不僅是寒武紀第三代云端訓練智能芯片,也是寒武紀首款采用芯粒技術(shù)的AI芯片。該芯片采用臺積電7nm工藝,最高算力達256TOPS(INT8)。

長沙景嘉微電子股份有限公司(簡稱景嘉微)是中國GPU的龍頭企業(yè)。該公司的第三代GPU產(chǎn)品JM9系列已成功流片,其中入門級芯片JM9231的內(nèi)核頻率不低于1.5GHz,配備8GB顯存,性能約為1.5TFLOPS。該芯片對標英偉達GeForce GTX 1050,可以滿足目標識別等部分AI領(lǐng)域的需求。

海光信息技術(shù)股份有限公司(簡稱海光信息)是中國深度計算單元(Deep Computing Unit,DCU)的龍頭企業(yè)。該公司的AI芯片產(chǎn)品為深算一號和深算二號,這些芯片以GPU架構(gòu)為基礎,兼容通用的“類CUDA”環(huán)境,可用于AI大模型的訓練。

上海復旦微電子集團股份有限公司(簡稱復旦微電)是中國FPGA的領(lǐng)軍企業(yè),成功研制出億門級FPGA、異構(gòu)融合可編程片上系統(tǒng)(Programmable System on a Chip,PSoC)芯片,以及面向AI應用、融合了FPGA和AI技術(shù)的現(xiàn)場可編程人工智能(Field Programmable Artificial Intelligence,F(xiàn)PAI)可重構(gòu)芯片,相關(guān)產(chǎn)品已實現(xiàn)批量生產(chǎn)。復旦微電正在積極開展14nm/16nm工藝的十億門級產(chǎn)品的開發(fā)。

上海壁仞科技股份有限公司(簡稱壁仞科技)成立于2019年,已逐步推出在AI訓練和推理、圖像渲染等多個領(lǐng)域具有先進性能的芯片。2022年12月,壁仞科技發(fā)布了首款AI芯片“云光”,該芯片采用了7nm工藝,具備強大的計算性能和較低的功耗。2023年,壁仞科技繼續(xù)保持快速發(fā)展。2023年3月,壁仞科技發(fā)布了第二款AI芯片“云影”,該芯片采用了5nm工藝,性能和能效有了進一步提升。

上海燧原科技有限公司(簡稱燧原科技)成立于2018年3月,主要專注于AI云端算力的研發(fā),以自主創(chuàng)新為目標,覆蓋全棧。目前,燧原科技可以提供具有完整IP的通用AI訓練和推理產(chǎn)品,包括云AI訓練加速器“云燧i10”、云AI推理加速器“云燧i20”、云AI訓練加速器“云燧T10”和“云燧T20”、計算和編程平臺“馭算TOPSRider”,以及推理加速引擎“鑒算TOPSInference”。

上海天數(shù)智芯半導體有限公司(簡稱天數(shù)智芯)創(chuàng)立于2015年,于2018年正式推出7nm通用并行處理云計算芯片。2020年12月,天數(shù)智芯開發(fā)的中國首款用于云端AI訓練的7nm GPU“天垓100”通過晶圓電學檢測,并于次年3月正式發(fā)布。該公司的第二款產(chǎn)品是用于云端和邊緣側(cè)的7nm AI推理芯片“智鎧100”,于2023年5月通過了晶圓電學檢測。

墨芯人工智能科技(深圳)有限公司成立于2018年,專注于設計云端、終端AI芯片和加速解決方案。該公司的產(chǎn)品通過改進計算模型,與完全稀疏化的神經(jīng)網(wǎng)絡兼容。該公司的首款產(chǎn)品“Antoum”是一款高性能通用可編程邏輯器件(Programmable Logic Device,PLD),用于云端AI推理,稀疏化率達到32倍。它支持很多神經(jīng)網(wǎng)絡架構(gòu),如CNN、RNN、長短期記憶(Long Short-term Memory,LSTM)網(wǎng)絡、Transformer、BERT,以及各種浮點和定點數(shù)據(jù)類型。

沐曦集成電路(上海)有限公司成立于2020年9月,為主要的GPU生態(tài)系統(tǒng)開發(fā)了高性能GPU IP和可互操作的軟件堆棧“MXMACA”。該公司已經(jīng)開發(fā)出用于AI推理的MXN系列(曦思)、用于科學計算和AI訓練的MXC系列(曦云)、MXG系列(曦彩)等全棧高性能GPU。它們被廣泛應用于AI、智慧城市、數(shù)據(jù)中心、云計算、自動駕駛、科學計算、數(shù)字孿生和圖形處理等前沿領(lǐng)域。

其他國內(nèi)AI芯片新創(chuàng)公司或品牌還包括摩爾線程、太初元碁、云天勵飛、昆侖芯等。

開發(fā)一款ASIC AI芯片比開發(fā)一款手機的主要片上系統(tǒng)(System on Chip,SoC)芯片或x86處理器都要容易得多。因此,開發(fā)ASIC AI芯片的門檻比較低。一些原來不做芯片的公司(如亞馬遜、谷歌、阿里巴巴、百度等)都成功開發(fā)了自己的AI芯片。2021年前,大量投資進入AI芯片開發(fā)領(lǐng)域,誕生了一批開發(fā)AI芯片的新創(chuàng)公司。然而,由于開發(fā)一款ASIC AI芯片需要幾年時間,再加上新的AI算法不斷涌現(xiàn),不少芯片做出來后已經(jīng)很難在市場上生存,不可能進入批量生產(chǎn)環(huán)節(jié),所以很多新創(chuàng)公司也就隨之消失了。

主站蜘蛛池模板: 延安市| 青铜峡市| 太仓市| 巩留县| 西平县| 灵川县| 明光市| 伊宁市| 博罗县| 兴仁县| 定西市| 襄汾县| 图们市| 阿鲁科尔沁旗| 仙居县| 石家庄市| 镇巴县| 广宁县| 霞浦县| 泰宁县| 井冈山市| 明光市| 会同县| 宜兴市| 固原市| 林州市| 汤原县| 海林市| 达州市| 邢台县| 东宁县| 永修县| 普定县| 利辛县| 义马市| 霍州市| 潼关县| 米脂县| 涪陵区| 丰台区| 西吉县|