后摩爾時(shí)代的芯片設計和EDA發(fā)展趨勢
近年來(lái),隨著(zhù)大規模集成電路制造工藝發(fā)展速度減緩,相對于線(xiàn)性提升的芯片規模,芯片的制造成本呈現指數級上升,下圖可以很清晰地看到兩種趨勢變化。
本文引用地址:http://dyxdggzs.com/article/202208/437671.htm圖1 芯片晶體管規模與制造成本提升趨勢 (數據來(lái)源:美國DARPA)
這些數字表明,我們正在為越來(lái)越復雜的芯片付出得越來(lái)越多。但是從1990年代到2000年代的經(jīng)驗好像并不是這樣:每一代電腦手機價(jià)格漲得并不多,但是性能總是有大幅增長(cháng),甚至性?xún)r(jià)比都是在提高的,更好的電子產(chǎn)品甚至越來(lái)越便宜。為什么現在我們的感覺(jué)變化了?
這里有兩方面的原因:第一,過(guò)去很長(cháng)時(shí)間里消費電子的用戶(hù)數量在指數級增長(cháng),這樣的增長(cháng)攤薄了指數級增長(cháng)的成本;第二個(gè)原因就是摩爾定律,隨著(zhù)工藝改進(jìn),芯片上的晶體管數量每隔一段時(shí)間就會(huì )“無(wú)成本”翻倍,從而帶來(lái)性能的飛速增長(cháng),所以我們感覺(jué)芯片的性?xún)r(jià)比總是在提高。摩爾定律會(huì )永遠持續嗎?最近這10年里,我們反復聽(tīng)到這個(gè)說(shuō)法:摩爾定律已經(jīng)結束。
關(guān)于摩爾定律的發(fā)展歷史,從下圖可以看得比較清楚,縱坐標是處理器性能,橫坐標是不同的工藝和架構發(fā)展階段。
從70年代中期開(kāi)始,基于CISC復雜指令集的處理器,經(jīng)歷了10年的快速發(fā)展,每3.5年性能就翻一倍。然后精簡(jiǎn)指令集RISC由于它流水線(xiàn)比較好設計,容易利用工藝的發(fā)展,所以能繼續推動(dòng)性能的快速發(fā)展,差不多1年半就提高一倍,當然這個(gè)時(shí)期也出現了制造工藝大發(fā)展,所以芯片性能提高比較快。
到2005年左右有一個(gè)重要的規律Dennard Scaling,或者叫MOSFET scaling差不多發(fā)展到頭了,它的含義就是說(shuō)工藝發(fā)展了,晶體管變小驅動(dòng)電壓就會(huì )變小,會(huì )自然帶來(lái)芯片功耗的降低,所以你只管增加芯片復雜度,下一代工藝出來(lái)了自然會(huì )幫你把功耗壓住。但是到這個(gè)階段不行了,漏電壓不住了,單位功耗無(wú)法再降,那么單核頻率就沒(méi)辦法再提高了,那怎么辦呢?我們都知道答案,就是轉向多核處理器,多核又帶來(lái)一個(gè)高速發(fā)展期,還是三五年就能提高一倍的性能。
但是,多核也存在一些問(wèn)題,無(wú)論是手機上還是高性能計算上,都不是有多少核就總是能用多少核的,Amdahl定律就是描述這個(gè)規律,即算法里面的串行部分總會(huì )卡住最高的性能。同時(shí),并行化也有額外開(kāi)銷(xiāo),即使像圖像深度學(xué)習這么極端的并行數據算法,也存在一些偏向串行化或者全局的算子會(huì )變成性能瓶頸。所以我們看到過(guò)去10年里面,處理器的實(shí)際應用性能提高遠沒(méi)有前30年那么快了。
總結來(lái)說(shuō),過(guò)去的四十年里面,不斷發(fā)展的工藝和架構設計共同推動(dòng)著(zhù)摩爾定律持續前進(jìn),即使是今天也還有3nm、2nm、1nm先進(jìn)工藝在地平線(xiàn)上遙遙可及。但是現實(shí)趨勢來(lái)看,更高工藝、更多核、更大的芯片面積已經(jīng)不能帶來(lái)過(guò)去那種成本、性能、功耗的全面優(yōu)勢,摩爾定律確實(shí)是在進(jìn)入一個(gè)發(fā)展平臺期,也意味著(zhù)我們進(jìn)入了“后摩爾時(shí)代”。
如今,摩爾定律已經(jīng)到了一個(gè)部分失效的階段,即晶體管密度雖然還在繼續增加,但功耗密度和性能密度已經(jīng)很難進(jìn)一步提高,也就是沒(méi)有那種隨著(zhù)工藝改進(jìn)自動(dòng)發(fā)生的進(jìn)步了。后摩爾時(shí)代,我們也觀(guān)察到幾個(gè)趨勢正在給驗證EDA帶來(lái)更高的要求:
? 新興應用領(lǐng)域飛速發(fā)展,需求急劇分化
? 從更多維度構造自主芯片,滿(mǎn)足應用領(lǐng)域需求
? 壓力巨大的應用創(chuàng )新周期
過(guò)去幾十年里,通用電子設備如個(gè)人電腦、手機、汽車(chē)、云計算等新興應用領(lǐng)域正快速推動(dòng)著(zhù)芯片和EDA產(chǎn)業(yè)的發(fā)展。曾經(jīng)圍繞這些設備里芯片的一個(gè)關(guān)鍵詞是“快”,更快的芯片就是更好的芯片,因為功耗、成本和物理限制都不是問(wèn)題,那是一個(gè)美好的年代。
但是,后摩爾時(shí)代沒(méi)有那么容易設計出“更快”的芯片了,或者說(shuō)更快的芯片一定更貴了,是不是芯片不會(huì )再變化了呢?答案是否定的,未來(lái)芯片的變化反而會(huì )更大,不同的指令集、內存類(lèi)型、內存大小、外部接口、專(zhuān)用指令或加速器、軟硬件分工模式、封裝模式等等,都沒(méi)有絕對的好壞,甚至一味追求更高工藝都不一定正確了,因為單顆芯片繼續簡(jiǎn)單增加功能或者提高工藝,必然帶來(lái)成本的增加,對用戶(hù)不一定是好事。
這種情況下,設計就不一定是做加法了,很多時(shí)候我們可能還要做減法。任何改變都是取舍權衡,那么權衡由什么來(lái)決定呢?由應用系統的需求決定。未來(lái),如何發(fā)揮一顆芯片的設計,也需要應用系統和軟件做相應的變化。過(guò)去那種軟件不需要太多變化,隔幾年用同樣的錢(qián)換新一代的芯片就能看到系統性能提升,這樣的經(jīng)驗已經(jīng)不再適用了。
所以,后摩爾時(shí)代的芯片創(chuàng )新空間是變大了,而不是變小了。但是設計的約束和目的變了,從設計更快的芯片轉變?yōu)樵O計更符合系統應用創(chuàng )新需求的芯片。我們也確實(shí)看到了業(yè)界在發(fā)生這樣的變化:蘋(píng)果、特斯拉、華為、谷歌、阿里巴巴等手機、汽車(chē)、服務(wù)器、AI、云服務(wù)等高科技系統公司,都在從“采購和使用通用芯片”,轉向“定制自己的芯片”,在內部不斷加強芯片團隊方面的投資,通過(guò)SoC芯片和ASIC芯片的創(chuàng )新來(lái)實(shí)現系統創(chuàng )新。同時(shí),新興高科技的發(fā)展也反過(guò)來(lái)促進(jìn)芯片設計和EDA的發(fā)展,比如人工智能、機器學(xué)習、云計算等技術(shù)對芯片設計和 EDA工具本身的影響也越來(lái)越大。
對于國內公司來(lái)說(shuō),在高工藝發(fā)展受限的大背景下,就更沒(méi)有必要完全把注意力放在先進(jìn)工藝上,應該看到即使是在14nm、16nm、28nm甚至更低工藝上,國內很多芯片產(chǎn)品整體來(lái)看還是跟國際巨頭有差距,這種差距恰恰是架構、軟件、編譯器以及應用需求匹配等因素造成的。后摩爾時(shí)代的芯片創(chuàng )新,會(huì )有更多不同的維度。
后摩爾時(shí)代的第二個(gè)趨勢是,芯片設計約束變得更多維。過(guò)去在工藝發(fā)展驅動(dòng)下,一般都以圍繞著(zhù)工藝的PPA(性能、功耗、面積)指標作為核心維度實(shí)現芯片設計,其中面積也約等于芯片成本。但是發(fā)展到后摩爾時(shí)代,PPA三者之間的矛盾互斥已經(jīng)大到很難平衡,而成本也不再簡(jiǎn)單取決于芯片面積,因此我們可以觀(guān)察到芯片設計的約束維度已經(jīng)開(kāi)始發(fā)生明顯的變化,其中包括:
? 軟件
越來(lái)越定制化的芯片,必然也越來(lái)越依賴(lài)針對性的軟件去利用這些創(chuàng )新的芯片功能。蘋(píng)果手機在自主設計芯片之前,曾經(jīng)長(cháng)期CPU工藝落后于高通,但是基于iOS軟件系統的蘋(píng)果手機流暢程度、用戶(hù)體驗都優(yōu)于大部分競爭對手。這個(gè)例子充分說(shuō)明了系統級軟硬件集成優(yōu)化的重要性,而單個(gè)芯片的PPA指標并不必然能給整個(gè)應用系統帶來(lái)提升。
而軟件的優(yōu)化,不能等到芯片開(kāi)發(fā)生產(chǎn)完成再做,必需要從項目規劃階段就能根據應用需求做好軟硬件劃分,并把“特定軟件”和“特定芯片”結合到一起,去實(shí)際評估最終能否達到性能需求。這樣就出現了“先有雞還是先有蛋”的問(wèn)題,因此新一代EDA工具需要對軟件提前定制和優(yōu)化需求進(jìn)行支持。
? 架構
過(guò)去,處理器指令集以從CISC發(fā)展來(lái)的x86指令集為典型代表,在發(fā)展過(guò)程中不斷增加新的指令,越來(lái)越龐大。但RISC-V為代表的新型ISA和架構反其道而行之,從一個(gè)非常簡(jiǎn)單的指令集出發(fā),只為特定應用增加特定指令和加速器?;谶@種思路,誕生了大量的DSA(領(lǐng)域特定)芯片,在A(yíng)I監控、自動(dòng)駕駛、IoT等領(lǐng)域取得了比通用處理器更好的效果。另一個(gè)更激進(jìn)的架構演進(jìn)方向代表是存內計算,讓存儲和計算能夠在同一個(gè)器件內完成,這打破了馮諾依曼架構的固定模式,在很多機器學(xué)習應用上都能帶來(lái)與工藝發(fā)展無(wú)關(guān)的效率提升。
同時(shí),在多核、多計算單元、多芯粒(die)并行的復雜芯片中,SoC體系結構的優(yōu)化也還存在很大的空間。舉例來(lái)說(shuō),我們可以在某些ARM架構服務(wù)器芯片,或者在某國產(chǎn)x86 CPU芯片上,都觀(guān)察到單核頻率和特定計算性能高于同檔次Intel Xeon處理器的情況,這說(shuō)明單純從處理器核的設計和生產(chǎn)工藝上,后來(lái)者們都已經(jīng)達到一定的水準。但是在運行多核、多socket的數據庫等復雜系統軟件時(shí),性能還是有一定差距,這也反向證明了在一個(gè)復雜的多核、多芯片、多級存儲體系里,架構優(yōu)化的重要性。
? 封裝
隨著(zhù)多芯粒(die)封裝從2D逐漸過(guò)渡到3D,高帶寬高密度互連的Chiplet封裝成了最近很火的一個(gè)技術(shù)方向。它把不同工藝的模塊化芯片,像拼接樂(lè )高積木一樣用封裝技術(shù)整合在一起,實(shí)現更高的性能。Chiplet可以更容易地賦能系統公司自定義創(chuàng )新芯片,也可以幫助中小型的芯片公司和團隊降低創(chuàng )新門(mén)檻,把資源投入在核心創(chuàng )新點(diǎn)上。比如國產(chǎn)GPU公司壁仞科技最近發(fā)布的7nm GPU產(chǎn)品,通過(guò)CoWoS Chiplet技術(shù)集成了計算芯粒和高帶寬HBM2內存芯粒,實(shí)現了媲美競爭對手4nm高端GPU的同等算力,并且在不同產(chǎn)品線(xiàn)之間共享計算芯粒,有效降低了成本和提高了良率。
但是Chiplet包含了很多EDA相關(guān)的新技術(shù),比如說(shuō)跟制造相關(guān)的包括封裝里面功耗分析、散熱分析等,Chiplet芯片的設計驗證也對傳統EDA提出了新的要求。特別是在驗證技術(shù)和工具方面,實(shí)際上已經(jīng)成為Chiplet發(fā)展的瓶頸。因為Chiplet目前還以單一公司完成全系統為主,但未來(lái)多廠(chǎng)商合作的新型Chiplet模式會(huì )把傳統SoC流程打破,這就要求在IP建模、互連架構分析、系統功能驗證、功耗驗證等方面提出新的模式,而不僅僅是解決了制造問(wèn)題就能實(shí)現全新的Chiplet產(chǎn)業(yè)結構。
? 多模塊
從應用系統出發(fā)的新趨勢,也決定了單顆芯片無(wú)法達成系統設計目的,因此芯片的定義、設計和驗證也必須考慮多顆芯片之間的協(xié)同。比如Nvidia公司的NVLink GPU片間通信接口協(xié)議,給GPU處理器增加了高性能數據交換接口,繞過(guò)了原來(lái)的PCIe瓶頸,有效提高了多GPU協(xié)同訓練大型AI模型的效率。目前復雜處理器的規模在幾億到上百億等效邏輯門(mén),但未來(lái)一個(gè)電子應用系統的總邏輯門(mén)數量會(huì )在幾千億、幾萬(wàn)億,這不可能用單顆芯片或單顆封裝去完成,必須充分考慮幾十到幾百顆芯片的擴展,并有效處理子系統之間的連接和分工。
這種通過(guò)異構、多芯粒、多模塊系統集成的方式,也體現了從系統設計角度出發(fā)去定義和設計芯片的理念。半導體設計產(chǎn)業(yè)開(kāi)始不僅是通過(guò)工藝的提升,而是更多考慮系統、架構、軟硬件協(xié)同等,從系統應用來(lái)導向、從應用來(lái)導向去驅動(dòng)芯片設計,讓用戶(hù)得到更好的體驗。
再來(lái)說(shuō)項目周期,自定義芯片驅動(dòng)的系統創(chuàng )新周期是從應用需求創(chuàng )新開(kāi)始,對系統和芯片提出新的需求,因此推導出需要一顆或多顆在功能、功耗、性能上權衡的芯片,然后開(kāi)始芯片的設計和生產(chǎn),芯片被制造出來(lái)之后投入使用,與軟件一起形成新的系統。但是這個(gè)周期當中的芯片設計驗證環(huán)節,對系統公司來(lái)說(shuō)是一個(gè)全新的領(lǐng)域,不管是外包還是自研,在當前的EDA工具和方法學(xué)流程中,都存在1-2年的創(chuàng )新間隔。
由于系統級軟硬件和傳統芯片設計思路之間的隔閡,這樣的創(chuàng )新性項目周期,往往從一開(kāi)始就會(huì )耗費比預計更長(cháng)的時(shí)間,從系統的功能性能指標到具體的芯片定義是一個(gè)非常復雜的過(guò)程,需要跨領(lǐng)域的架構工程師團隊緊密合作,基于多種工具平臺分解需求和向下映射。
鑒于系統級應用的復雜性和技術(shù)挑戰,這些步驟往往需要比預期中更多的時(shí)間,這會(huì )迫使項目通過(guò)驗證和測試等下游步驟去彌補損失的時(shí)間,進(jìn)一步壓縮本就很緊張的時(shí)間表。但是復雜SoC芯片和高級工藝的超高成本,又決定了芯片的驗證要求很高,需要保證功能和性能驗證的覆蓋率,于是我們往往會(huì )看到芯片設計項目在仿真、調試、原型驗證等環(huán)節碰到資源、人員、驗證平臺實(shí)現等各種瓶頸,引入更多的時(shí)間延誤。即使芯片成功流片,進(jìn)入生產(chǎn)階段,系統級應用帶來(lái)的復雜測試環(huán)境,對傳統ATE測試方法又帶來(lái)速度、資源上的各種限制,影響項目真正實(shí)現“進(jìn)入市場(chǎng)”的時(shí)間點(diǎn)。
因此,這里的第三個(gè)趨勢,是前兩個(gè)發(fā)展趨勢所必然帶來(lái)的挑戰。如果不能直面這些挑戰,那么系統創(chuàng )新驅動(dòng)的多維芯片創(chuàng )新就會(huì )受到影響。
后摩爾時(shí)代,針對以上三大趨勢,芯華章貫徹“終局思維”,以終為始,致力于打造更智能的EDA 2.0,其核心目標是:
? 建立起能夠覆蓋從芯片級別到最終系統級別的驗證和測試方法學(xué),提升芯片及電子系統的性能表現。
? 讓系統工程師和軟件工程師都參與到芯片設計中來(lái),用智能化的工具和服務(wù)化的平臺來(lái)縮短從芯片需求到系統應用創(chuàng )新的周期,降低復雜芯片的設計和驗證難度,賦能電子系統創(chuàng )新。
未來(lái),系統應用將是芯片設計的核心驅動(dòng)力。芯華章所提出的EDA 2.0并不是一個(gè)0和1的狀態(tài)變化,而是要在當前的基礎上進(jìn)一步增強各環(huán)節的開(kāi)放程度。在開(kāi)放和標準化的前提下,將過(guò)去的設計經(jīng)驗和數據吸收到全流程EDA工具及模型中,形成智能化的EDA設計,形成從系統需求到芯片設計、驗證的全自動(dòng)流程。同時(shí),為了滿(mǎn)足算力和平臺化的要求,EDA 2.0應該與云平臺和及云上多樣化的硬件結合,充分利用成熟的云端軟硬件生態(tài)。要支持應用廠(chǎng)商快速得到需要的芯片,EDA 2.0還應該是產(chǎn)品和服務(wù)的結合,最終實(shí)現電子設計服務(wù)——EDaaS(Electronic Design as a Service)。
2022年7月,芯華章成立研究院,匯集了沈昌祥、毛軍發(fā)等中國兩院院士,更有數十位來(lái)自集成電路設計、電子設計自動(dòng)化與信息算法系統領(lǐng)域的頂級專(zhuān)家學(xué)者,以研究下一代EDA 2.0方法學(xué)與技術(shù)為目標,面向工業(yè)應用的核心基礎技術(shù)做長(cháng)期、持續地研發(fā)投入與技術(shù)攻關(guān),推動(dòng)從EDA 1.0往2.0發(fā)展,滿(mǎn)足數字世界中系統應用對芯片多樣化的需求,打造自主可信賴(lài)的電子系統創(chuàng )新基石。
評論