大勢所趨的芯片異構
來(lái)源:半導體產(chǎn)業(yè)縱橫

開(kāi)放的小芯片生態(tài)系統對未來(lái)至關(guān)重要。
作者:九林
在摩爾定律驅使下,芯片發(fā)展的目標永遠是高性能、低成本和高集成。隨著(zhù)單芯片可集成的晶體管數量越來(lái)越多,工藝節點(diǎn)越來(lái)越小,隧穿效應逐漸明顯,漏電問(wèn)題越發(fā)凸顯,導致頻率提升接近瓶頸,為進(jìn)一步提升系統性能,芯片由單核向多核系統發(fā)展。
在后摩爾時(shí)代,先進(jìn)工藝的研發(fā)成本過(guò)高,而市場(chǎng)需求變化又太快,導致應用碎片化嚴重,很難確保一顆大而全的芯片可以成功覆蓋所有需求,而過(guò)高的研發(fā)成本和因Die面積過(guò)大造成的良率下降也導致芯片成本大幅飆升。為延續摩爾定律,采用多芯片異構集成的方式取代單一大芯片,以確保在可接受的成本下進(jìn)一步提升集成度和性能,因此芯片系統也逐漸演進(jìn)到眾核異構系統。

進(jìn)入到眾核時(shí)代,各大廠(chǎng)商不約而同的采用了多Die擴展的技術(shù)路線(xiàn)。
一是,有基板封裝技術(shù)(MCM),通過(guò)基板走線(xiàn)的方式進(jìn)行Die間互聯(lián),例如低功耗超短距離;二是,硅中介層技術(shù)(silicon interposer),在Die的底部加入一層硅,作為中介層連接多個(gè)Die,蘋(píng)果就采用此方式;三是,嵌入式多芯互連橋技術(shù)(Embedded Multi-die Interconnect Bridge,EMIB),在基板制作過(guò)程中嵌入具有多個(gè)布線(xiàn)層的電橋,通過(guò)這些橋實(shí)現多Die間的互連,英特爾就采用此方式。
Arm 高級副總裁兼基礎設施總經(jīng)理 Chris Bergey 表示:“CPU 設計的未來(lái)正在加速并向多芯片方向發(fā)展,這使得整個(gè)生態(tài)系統必須支持基于小芯片的 SoC?!?/span>
蘋(píng)果M1 Ultra Fusion
M1、M1 Pro、M1 Max、M1 Ultra的尺寸比較。管芯面積不斷擴大,分別有160億、337億、570億、1140億個(gè)晶體管。M1 Max 是 M1 的 3.5 倍,是 M1 Pro 的 1.7 倍,但 M1 Ultra 是 M1 Max 的兩倍。
蘋(píng)果M1 Ultra由 1140 億個(gè)晶體管組成,M1 Ultra 支持高達 128GB 的高帶寬、低延遲統一內存,支持 20 個(gè) CPU 核心、64 個(gè) GPU 核心和 32 核神經(jīng)網(wǎng)絡(luò )引擎,每秒可運行高達 22 萬(wàn)億次運算,提供的 GPU 性能是蘋(píng)果 M1 芯片的 8 倍,提供的 GPU 性能比最新的 16 核 PC 臺式機還高 90%。
如此驚人的芯片,其技術(shù)的關(guān)鍵點(diǎn)在于將兩個(gè) M1 Max 半導體裸片(半導體芯片體)連接在一起,形成一個(gè)兩倍大的 SoC。M1 Ultra,將兩個(gè)M1 Max 芯片拼在一起,使得芯片各項硬件指標直接翻倍。
現有的 PC 雙處理器配置通過(guò)主板上的布線(xiàn)連接兩個(gè)處理器。但是,在這種配置中,CPU之間的通信帶寬是有限的,因此會(huì )出現延遲,性能并不是簡(jiǎn)單的翻倍,它還增加了功耗和發(fā)熱。
M1 Ultra 針對這個(gè)問(wèn)題使用的互連技術(shù)被稱(chēng)為“UltraFusion”,使用了 10000 多個(gè)硅中介層(連接布線(xiàn))并按原樣連接半導體管芯,而不通過(guò)外部電路。采用這種設計,互連部分的數據傳輸速度最高可達 2.5TB/秒。
最重要的是,內置在 M1 Max 中的指令調度程序將指令分配給雙倍的處理內核,并像單個(gè) SoC 一樣運行。由于內存控制器也像集成一樣運行,因此整個(gè)內存通道增加了一倍,內存帶寬增加到每秒 800GB。
例如,一個(gè)M1Max中內置有10個(gè)核心的CPU,但是在連接兩個(gè)CPU的情況下增加到20個(gè)核心。將程序中的命令用哪個(gè)核心來(lái)處理,由調度器這個(gè)模塊來(lái)分配,但是M1Max的調度器假定有20個(gè)核心的CPU,指令緩沖區的數量也進(jìn)行了優(yōu)化。

英偉達超大規模計算副總裁 Ian Buck 表示:“小芯片和異構計算對于應對摩爾定律放緩至關(guān)重要?!?/span>
英偉達近日發(fā)布的數據中心專(zhuān)屬CPU Grace CPU超級芯片也采用了類(lèi)似的方式。
該芯片由兩顆CPU芯片組成,其間通過(guò)NVLink-C2C技術(shù)進(jìn)行互連。其鏈路的能效最多可比英偉達芯片上的PCIe Gen 5高出25倍,面積效率高出90倍,可實(shí)現每秒900GB乃至更高的帶寬。
NVLink-C2C與近日英特爾和臺積電、三星等多家科技廠(chǎng)商發(fā)起的UCIe標準有著(zhù)異曲同工之妙,也是一種新型的高速、低延遲、芯片到芯片的互連技術(shù),可支持定制裸片與GPU、CPU、DPU、NIC、SoC實(shí)現互連。
此前英特爾在Hotchips芯片上就展示過(guò)EMIB(嵌入式芯片互連橋)技術(shù),單個(gè)基板中可以有許多嵌入式橋接,根據需要在多個(gè)裸片之間提供極高的 I/O 和良好控制的電氣互連路徑。
由于芯片不必通過(guò)帶有 TSV 的硅中介層連接到封裝,因此不會(huì )降低其性能。我們將微凸塊用于高密度信號,使用粗間距、標準倒裝芯片凸塊用于從芯片到封裝的直接電源和接地連接。
對于目前的芯片技術(shù)來(lái)說(shuō),臺積電5nm的制程工藝是已經(jīng)能夠真正達到的業(yè)界頂尖工藝。但如果仍想在制程受到約束的情況下,推出性能更強的芯片,有兩種方式:第一,是再設計一款面積更大的芯片。第二,是將原來(lái)的芯片組合在一起使用,也就是說(shuō)一次用兩顆。
但更大面積的芯片也是當前成電路發(fā)展面臨的困境之一,而當裸片面積越大,其良率就會(huì )越低,400平方毫米以上芯片良率降至20-30%,生產(chǎn)大面積裸片就意味著(zhù)更多的壞點(diǎn)和更低的良率。而從一次用兩顆的方式來(lái)看,目前業(yè)界的主流通過(guò)主板 PCB 連接。
比如像華碩的 WS C621E SAGE 主板就屬于雙路 CPU 主板,在設計之初就支持兩塊 CPU 同時(shí)工作。
但這樣做缺點(diǎn)也很明顯,比如兩個(gè) CPU 的插槽以及相應連接所需的布線(xiàn)明顯會(huì )占用很大的 PCB 面積,這樣做出來(lái)的產(chǎn)品尺寸會(huì )很大。而且由于兩個(gè) CPU 之間是通過(guò) PCB 走線(xiàn)連接,延遲會(huì )變得很大。
通過(guò)主板 PCB 連接兩塊 CPU 所帶來(lái)的缺點(diǎn)基本都是連線(xiàn)過(guò)長(cháng)導致的,這也是為什么蘋(píng)果、英偉達、英特爾都紛紛看向封裝。
業(yè)內人士推測蘋(píng)果的UltraFusion 封裝架構至少是 InFO_LSI/CoWoS-L 的定制版本。在臺積電宣布了兩個(gè)版本的硅橋技術(shù)InFO_LSI 和 CoWoS-L中, InFO_LSI 凸塊焊盤(pán)間距指定為 25 μm。這與Apple M1 MAX凸塊焊盤(pán)間距已壓縮至 25 μm高度重合。
硅橋技術(shù)比較
InFO_LSI 的 RDL(再分布層)線(xiàn)/空間尺寸為 0.4/0.4 μm,這意味著(zhù) I/O 密度為 1250/mm/層。鑒于互連側的芯片邊緣長(cháng)度超過(guò) 18 毫米,提供了超過(guò) 20000 個(gè)潛在的 I/O,遠遠超過(guò) Srouji 引用的 10000 個(gè)。
2021 年 1 月,臺積電總裁魏哲家在財報會(huì )議上透露:“對于包括 SoIC、CoWoS 等先進(jìn)封裝技術(shù),我們觀(guān)察到 chiplet 正成為一種行業(yè)趨勢。臺積電正與幾位客戶(hù)一起,使用 chiplet 架構進(jìn)行 3D 封裝研發(fā)。
受限于不同架構、不同制造商生產(chǎn)的die(裸片)之間的互連接口和協(xié)議的不同,設計者必須考慮到工藝制程、封裝技術(shù)、系統集成、擴展等諸多復雜因素,同時(shí),還要滿(mǎn)足不同領(lǐng)域、不同場(chǎng)景對信息傳輸速度、功耗等方面的要求,使得小芯片的設計過(guò)程異常艱難。而解決這些問(wèn)題的最大難關(guān)就是沒(méi)有統一的標準協(xié)議。

英特爾、臺積電、三星聯(lián)合日月光、AMD、ARM、高通、谷歌、微軟、Meta(Facebook)等十家行業(yè)巨頭共同宣布,成立小芯片(Chiplet)聯(lián)盟,并推出一個(gè)全新的通用芯片互聯(lián)標準——UCIe,以此共同打造小芯片互聯(lián)標準,推動(dòng)開(kāi)放生態(tài)建設。
UCIe的魅力在于可以將各個(gè)企業(yè)的Chiplet規定在統一的標準之下,這樣不同廠(chǎng)商、工藝、架構、功能的芯片就可以進(jìn)行混搭,從而輕易地達到互通,并且還能實(shí)現高帶寬、低延遲、低能耗、低成本。
在UCIe聯(lián)盟當中并沒(méi)有英偉達與蘋(píng)果這兩大異構集成公司的身影,但從英偉達的了NVLink-C2C互連技術(shù)以及蘋(píng)果UltraFusion的提出可以看出,這兩大公司都不會(huì )缺席。
2022年4月2日,芯原股份宣布正式加入UCIe產(chǎn)業(yè)聯(lián)盟,成為中國大陸首批加入該組織的企業(yè)。但目前國產(chǎn)廠(chǎng)商在UCIe聯(lián)盟中力量仍稍顯薄弱。如果這些行業(yè)大佬有意聯(lián)合起來(lái),制定“新的游戲規則”,下游的終端企業(yè)將別無(wú)選擇,只有隨波逐流。但未雨綢繆,國內早已開(kāi)始構建一套原生 Chiplet 標準。
2021 年 5 月,中國計算機互連技術(shù)聯(lián)盟(CCITA)在工信部立項了 Chiplet 標準,即《小芯片接口總線(xiàn)技術(shù)要求》,由中科院計算所、工信部電子四院和國內多個(gè)芯片廠(chǎng)商合作展開(kāi)標準制定工作。
如今,距離這個(gè)制定工作已經(jīng)過(guò)去了整整十個(gè)月,目前相關(guān)草案已經(jīng)出爐,即將進(jìn)入征求意見(jiàn)的環(huán)節,然后再進(jìn)行修訂,在年前完成技術(shù)驗證,在今年年底或者明年初再正式發(fā)布。
開(kāi)放的小芯片生態(tài)系統對這一未來(lái)至關(guān)重要,主要行業(yè)合作伙伴可在UCIe聯(lián)盟支持下共同努力,實(shí)現改變行業(yè)交付新產(chǎn)品的方式并繼續兌現摩爾定律承諾的共同目標。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。