1.1 VLSI技術的發展對處理器體系結構的影響
摩爾定律相當準確地預言了芯片上可集成的晶體管數目的增長規律。到2008年,單芯片上已經發展到可以放置十億只晶體管,設計者可以將大量的運算單元集成在一個芯片上。在0.15 μm CMOS工藝下,一個32位整數加法器占用的芯片面積還不到0.05 mm2,而單芯片可以集成上百個1 GHz的浮點單元,總體性能超過了100 GFLOPS/片[2]。在線寬縮小的同時,計算功耗也在降低。例如,在Imagine處理器中[3],以0.18 μm工藝制造的單精度浮點乘加單元占用了0.486 mm2,而每個乘法操作只耗能185 pJ(0.185 mW/MHz)。計算成本相對來說越來越低。目前,約100 GFLOPS和超過1 TOPS(渲染)能力的圖形芯片,其價格還不到100美元,如NVIDIA的GeForce4處理器,其性能達到120 GFLOPS和1.2 TOPS[4]。嵌入式處理器盡管性能沒有那么強大,但價格便宜,原始的1 GFLOPS的成本不到1美元。
但與此同時,片內、片外的通信延遲、帶寬和功耗卻與運算單元的大規模集成難以匹配。隨著線寬縮小,線延遲與門延遲相當,這成為制約頻率的關鍵因素,高負載長線的功耗也變得不可忽視。以多端口存儲器的訪問為例,假定每個乘法需要三次訪問多端口存儲器,且使用三個5 mm的總線(2讀1寫)進行數據傳輸,每次驅動32位5 mm的總線來傳送數據平均耗費24 pJ,通信的代價將與乘法的代價在同一個數量級。片外通信更是一種關鍵資源,即使采用現在最新的封裝方式,芯片上最多也只能引出大約1000個引腳,這極大地限制了片外數據帶寬。并且,片外通信也耗費了大量的能量(每32位的數據傳送的耗費大于1nJ)[5]。這就是現代VLSI技術的一個典型特征:運算單元相對廉價,而運算單元之間的通信較昂貴。