Chiplet:大算力的翅膀
過(guò)去幾十年來(lái),半導體行業(yè)一直按照摩爾定律的規律發(fā)展,憑借著(zhù)芯片制造工藝的迭代,使得每18個(gè)月芯片性能提升一倍。但是當工藝演進(jìn)到5nm,3nm節點(diǎn),提升晶體管密度越來(lái)越難,同時(shí)由于集成度過(guò)高,功耗密度越來(lái)越大,供電和散熱也面臨著(zhù)巨大的挑戰。Chiplet(芯粒)技術(shù)是SoC集成發(fā)展到當今時(shí)代,摩爾定律逐漸放緩情況下,持續提高集成度和芯片算力的重要途徑。工業(yè)界近期已經(jīng)有多個(gè)基于Chiplet的產(chǎn)品面市,Intel甚至發(fā)布了集成47顆芯片的Ponte Vecchio系列,Chiplet技術(shù)已經(jīng)是芯片廠(chǎng)商比較依賴(lài)的技術(shù)手段了。
相比傳統Monolithic芯片技術(shù),Chiplet技術(shù)背景下,可以將大型單片芯片劃分為多個(gè)相同或者不同的小芯片,這些小芯片可以使用相同或者不同的工藝節點(diǎn)制造,再通過(guò)跨芯片互聯(lián)和封裝技術(shù)進(jìn)行封裝級別集成,降低成本的同時(shí)獲得更高的集成度。通常來(lái)說(shuō),由于光刻掩膜版的尺寸限定在33mm * 26mm,單個(gè)芯片的面積一般不超過(guò)800mm^2,通過(guò)多個(gè)芯片的片間集成,可以在封裝層面突破單芯片上限,進(jìn)一步提高集成度。而且從工藝制造良率的Bose-Einstein模型:

其中A代表芯片面積,D0代表缺陷密度,n代表掩膜版層數相關(guān)系數。單芯片的面積越大,良率越低,對應制造成本也越高。同時(shí),在當前主流芯片架構中,信號處理部分通常為數字邏輯,隨著(zhù)工藝演進(jìn)相同功能情況下面積也會(huì )進(jìn)一步縮小,但是各類(lèi)接口部分通常為模擬電路,隨著(zhù)工藝演進(jìn)相同功能情況下面積幾乎不會(huì )縮小,因此合理地將不用功能有效劃分到不同工藝節點(diǎn)的芯片上,可以更高效利用現有制造工藝,有效降低成本。
Chiplet技術(shù)帶來(lái)上述高集成度和低成本等優(yōu)勢的同時(shí),也面臨著(zhù)諸多技術(shù)挑戰,總體來(lái)說(shuō)可以概括為:物理上如何拼接多個(gè)芯片;設計上如何將大芯片劃分為多個(gè)小芯片;以及如何標準化接口協(xié)議做到不同芯片產(chǎn)品標準化拼接。具體來(lái)說(shuō)可以分為幾個(gè)不同的方面:
- 超高速、超高密度和超低延時(shí)的封裝技術(shù),用來(lái)解決Chiplet之間遠低于單芯片內部的布線(xiàn)密度、高速可靠的信號傳輸帶寬和超低延時(shí)的信號交互。目前主流的封裝技術(shù)包括但不限于MCM、CoWoS、EMIB等。
- 基于Chiplet的架構設計,一方面考慮不同Chiplets之間如何進(jìn)行功能劃分和架構定義,另一方面考慮多個(gè)Chiplets如何進(jìn)行有效互聯(lián)和擴展,實(shí)現高效靈活可擴展的架構,避免多Chiplets之間出現信號死鎖、流量擁塞等功能和性能問(wèn)題。
- 標準化的多Chiplets之間交互的通信互聯(lián)協(xié)議,用于指導和約束不同芯片的接口設計和標準化對接。目前由Intel、AMD、ARM、ASE、Google、 Meta、Microsoft、Qualcomm、Samsung和TSMC共同開(kāi)發(fā)和制定的UCIe(Universal Chiplet Interconnect Express)已經(jīng)發(fā)布第一版標準。
由于篇幅限制,本文基于上述三個(gè)方面,簡(jiǎn)單介紹下當前業(yè)界主流實(shí)現方式,探討不同解決方法的優(yōu)缺點(diǎn)和設計考量,后續會(huì )附上各個(gè)部分的詳細介紹。
支持Chiplet的底層封裝技術(shù)
封裝技術(shù)目前主要由TSMC、ASE、Intel等公司來(lái)主導,包含從2D MCM到2.5D CoWoS、EMIB和3D Hybrid Bonding。本文主要介紹目前工業(yè)界主流的2D和2.5D封裝技術(shù)和其優(yōu)缺點(diǎn)。
1. MCM(Multi-Chip Module)

Multi-chip Module
MCM一般是指通過(guò)Substrate(封裝基板)走線(xiàn)將多個(gè)芯片互聯(lián)的技術(shù)。通常來(lái)說(shuō)走線(xiàn)的距離和范圍可以在10mm~25mm,線(xiàn)距線(xiàn)寬大約10mm量級,單條走線(xiàn)帶寬大約10Gbit/s量級。由于MCM可以通過(guò)基板直接連接各個(gè)芯片,通常封裝的成本會(huì )相對較低,但是由于走線(xiàn)的線(xiàn)距線(xiàn)寬比較大,封裝密度相對較低,接口速率相對較低,延時(shí)相對較大。
2. CoWoS(Chip-on-Wafer-on-Substrate)
CoWoS是TSMC主導的,基于interposer(中間介質(zhì)層)實(shí)現的2.5D封裝技術(shù),其中interposer采用成熟制程的芯片制造工藝,可以提供相比MCM更高密度和更大速率的接口。目前TSMC主流的CoWoS技術(shù)包括:
CoWoS-S:基礎CoWoS技術(shù),可以支持超高集成密度,提供不超過(guò)兩倍掩膜版尺寸的interposer層,通常用于集成HBM等高速高帶寬內存芯片。

CoWoS
CoWoS-R:基于前述CoWoS-S技術(shù),引入InFO技術(shù)中的RDL(Redistribution Layer),RDL 中介層由聚合物和銅跡線(xiàn)組成,具有相對機械柔韌性,而這種靈活性增強了封裝連接的可靠性,并允許新封裝可以擴大其尺寸以滿(mǎn)足更復雜的功能需求,從而有效支持多個(gè)Chiplets之間進(jìn)行高速可靠互聯(lián)。

CoWoS-R
CoWoS-L:在上述CoWoS-S和InFO技術(shù)的基礎上,引入LSI(Local Silicon Interconnect)技術(shù),LSI 芯片在每個(gè)產(chǎn)品中可以具有多種連接架構(例如 SoC 到 SoC、SoC 到小芯片、SoC 到 HBM 等),也可以重復用于多個(gè)產(chǎn)品,提供更靈活和可復用的多芯片互聯(lián)架構。

CoWoS-L
相比于MCM,CoWoS技術(shù)可以提供更高的互聯(lián)帶寬和更低的互聯(lián)延時(shí),從而獲得更高的性能。同時(shí),受限于interposer的尺寸(通常為2倍掩膜版最大尺寸),可以提供的封裝密度上限相對比較有限,并且由于interposer的引入,需要付出額外的制造成本和更高的技術(shù)復雜度,以及隨之而來(lái)的整體良率的降低。
3. EMIB(Embedded Multi-die Interconnect Bridge)

EMIB
EMIB是Intel主導的2.5D封裝技術(shù),使用多個(gè)嵌入式包含多個(gè)路由層的橋接芯片,同時(shí)內嵌至封裝基板,達到高效和高密度的封裝。由于不再使用interposer作為中間介質(zhì),可以去掉原有連接至interposer所需要的TSVs,以及由于interposer尺寸所帶來(lái)的封裝尺寸的限制,可以獲得更好的靈活性和更高的集成度。
總體而言,相比于前述介紹的MCM、CoWoS和InFO/LSI技術(shù),EMIB技術(shù)要更為優(yōu)雅和經(jīng)濟高效,獲得更高的集成度和制造良率。但是EMIB需要封裝工藝配合橋接芯片,技術(shù)門(mén)檻和復雜度較高。
Chiplet架構挑戰和洞察
基于Chiplet的架構設計,首先要考慮不同Chiplets之間如何進(jìn)行功能劃分和架構定義,目前主流的設計思路大致可以分為兩類(lèi):
第一類(lèi)
基于功能劃分到多個(gè)Chiplets,單個(gè)Chiplet不包含完整功能集合,通過(guò)不同Chiplets組合封裝實(shí)現不同類(lèi)型的產(chǎn)品,典型代表為Huawei Lego架構(Kunpeng & Ascend)、AMD Zen2/3架構。
Huawei Lego架構:采用compute die(compute + memory interface)和I/O die組合的形式進(jìn)行不同Chiplets功能拆解。在compute die(CPU/AI)設計時(shí)采用先進(jìn)的工藝,獲得頂級的算力和能效,在I/O die設計時(shí)采用成熟工藝,在面積與先進(jìn)工藝差別不大的情況下獲得成本收益。并且不同的Chiplets的數量和組合形式都可以靈活搭配,從而組合出多種不同規格的云端高性能處理器產(chǎn)品。

Huawei Lego
AMD Zen3架構:采用CCD(compute)和CIOD(memory interface + I/O)組合的形式進(jìn)行不同Chiplets功能拆解。在CCD設計時(shí)采用最先進(jìn)的工藝,獲得頂級的算力和能效,在CIOD設計時(shí)采用成熟工藝,在面積與先進(jìn)工藝差別不大的情況下獲得成本收益。并且CCD本身按照兩個(gè)4C8T cluster組合的形式設計,可以適應AMD從Desktop到Server的架構需求,根據場(chǎng)景選擇CCD數量和設計對應的CIOD即可,靈活度非常高。

AMD Zen3
第二類(lèi)
單個(gè)Chiplet包含較為獨立完整的功能集合,通過(guò)多個(gè)Chiplets級聯(lián)獲得性能的線(xiàn)性增長(cháng),典型代表為Apple M1 Ultra、Intel Sapphire rapids系列。
Apple M1 Ultra:通過(guò)Apple自研的封裝技術(shù)UltraFusion來(lái)堆疊兩顆M1 Max芯片,使得兩顆芯片之間擁有超過(guò)2.5TB/s帶寬且極低延時(shí)的互聯(lián)能力?;谶@個(gè)互聯(lián)的延時(shí)帶寬能力,可以使得M1 Ultra直接獲得兩倍M1 Max的算力,同時(shí)在軟件層面依然可以將M1 Ultra當做一個(gè)完整芯片對待,而不會(huì )增加額外的軟件修改和調試的負擔。

Apple M1 Ultra
Intel Sapphire Rapids:通過(guò)兩組鏡像對稱(chēng)的相同架構的building blocks,組合4個(gè)Chiplets,獲得4倍的性能和互聯(lián)帶寬。每個(gè)基本模塊包含計算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通過(guò)將上述高性能組件組成基本的building block,再通過(guò)EMIB技術(shù)進(jìn)行Chiplet互聯(lián),可以獲得線(xiàn)性性能提升和成本收益。

Intel Sapphire Rapids
基于Chiplet的架構設計,同時(shí)要考慮多個(gè)Chiplets如何進(jìn)行有效互聯(lián)和擴展,實(shí)現高效靈活可擴展的架構,避免多Chiplets之間出現信號死鎖、流量擁塞等功能和性能問(wèn)題。由于芯片內部互聯(lián)通常為可靠連接假設下的并行數據傳輸,而芯片之間的互聯(lián)通常為不可靠連接假設下的串行數據傳輸,根據芯片片上和片間互聯(lián)架構的組合和流量收斂情況,目前主流的設計思路和應用場(chǎng)景大致分為兩大類(lèi):
第一類(lèi)
片上片間相同架構,流量全打平或基本打平。典型代表如Cerebras,采用從tile到single die到wafer scale engine完全相同的互聯(lián)架構。另一個(gè)典型代表是Tesla DoJo,采用InFO-SoW的封裝和芯片四邊全部放置I/O接口的方式實(shí)現片內每個(gè)方向10TBps帶寬,跨片每邊4TBps,SoW集成后單邊帶寬9TBps。

CS-1 Wafer Scale Engine

DoJo D1 Chip
第二類(lèi)
片上片間架構相似,片間流量按照一定比例收斂。典型代表一個(gè)是前述的Huawei Bufferless Multi-Ring架構,片上流量會(huì )收斂到分布式的各個(gè)跨片接口;另一個(gè)典型代表是前述的Apple M1 Ultra,片上流量收斂到UltraFusion集中交換部分。

Bufferless Multi-Ring
從計算負載的角度,當單個(gè)計算任務(wù)計算密度較高,超出單芯片算力范圍的時(shí)候,需要多個(gè)芯片協(xié)同來(lái)完成,此時(shí)跨片數據交互也需要提供和片上數量級相當的帶寬和延時(shí),才能更有效利用算力,提高計算效率。典型的任務(wù)類(lèi)型是AI的訓練任務(wù),前述Cerebras和DoJo的互聯(lián)架構對這類(lèi)場(chǎng)景有較強優(yōu)勢。當計算任務(wù)數量龐大,單個(gè)任務(wù)負載較小,跨片流量通常是要遠小于片上流量的,此時(shí)采用流量收斂策略更為合適。
從互聯(lián)架構的實(shí)現方式和實(shí)現策略角度,通常根據網(wǎng)絡(luò )的拓撲、路由策略、防死鎖機制等又可進(jìn)一步細分,本文由于篇幅限制不再詳細介紹。
Chiplet協(xié)議介紹
工業(yè)界大約從2016年開(kāi)始就在逐步嘗試基于Chiplet的芯片設計,經(jīng)過(guò)長(cháng)時(shí)間的摸索,已經(jīng)在封裝工藝、架構設計上有了深厚的積累和長(cháng)足的進(jìn)步,在這樣的背景和契機之下,由Intel、AMD、ARM、ASE、Google、 Meta、Microsoft、Qualcomm、Samsung和TSMC共同開(kāi)發(fā)和制定的UCIe 1.0在2022年3月正式推出。
UCIe標準的初衷和目標,是建立一套Chiplet技術(shù)相關(guān)的設計和制造等各個(gè)環(huán)節的參考標準,從而使得不同設計和制造廠(chǎng)商的芯片可以無(wú)縫集成,從而打造封裝層級的完整靈活的芯片開(kāi)發(fā)生態(tài)系統?;贑hiplet技術(shù)和UCIe標準,可以實(shí)現超過(guò)單個(gè)掩膜版尺寸的芯片面積,獲得更大尺寸、更高集成度的高性能芯片。同時(shí)基于標準的UCIe,可以使能各類(lèi)不同工藝和不同大小的芯片和IP在封裝層面進(jìn)行集成,有效降低開(kāi)發(fā)成本,同時(shí)減少開(kāi)發(fā)周期。

Figure. Initial motivation of UCIe
UCIe主要規定的規格和標準包含以下幾個(gè)層面(具體內容本文不再贅述):
- 協(xié)議層:定義了高層級通信協(xié)議標準,初始版本采用成熟的PCIe加CXL協(xié)議。
- 中間層:定義了Chiplets之間的適配標準,包括Link狀態(tài)管理,參數對齊,信號的選擇校驗,以及可能的重傳機制。
- 物理層:定義了電氣信號連接的標準、物理鏈路設計標準,包括電氣信號定義,時(shí)鐘定義,Link和Sideband訓練。

Figure. Layering with UCIe
總結
綜上所述,經(jīng)過(guò)數年的發(fā)展,Chiplet技術(shù)已經(jīng)逐漸走向成熟和商用,成為芯片廠(chǎng)商比較依賴(lài)的技術(shù)手段,也被認為是未來(lái)芯片行業(yè)發(fā)展的重要方向。目前在底層封裝層面, 已經(jīng)有TSMC、Intel等廠(chǎng)商提供CoWOS、EMIB等先進(jìn)封裝,可以提供超高速、超高密度和超低延時(shí)的Chiplet互聯(lián);在標準協(xié)議層面,也有眾多大廠(chǎng)領(lǐng)銜發(fā)布的UCIe 1.0版本,提供了跨片接口設計的指導和約束。而在架構設計層面,如何基于Chiplet設計高性能、高效率、靈活可擴展的互聯(lián)架構,如何基于實(shí)現和商業(yè)視角進(jìn)行芯片間的功能劃分仍然是Chiplet技術(shù)中最大的挑戰。
Reference:
https://3dfabric.tsmc.com/english/dedicatedFoundry/technology/3DFabric.htm
https://ase.aseglobal.com/public/en/technology/focos.html
https://www.intel.com/content/www/us/en/silicon-innovations/6-pillars/emib.html
S. Naffziger, K. Lepak, M. Paraschou, and M. Subramony, “2.2 amd chiplet architecture for high-performance server and desktop products,” in 2020 IEEE International Solid-State Circuits Conference-(ISSCC). IEEE, 2020, pp. 44–45
A. Biswas, “Sapphire rapids,” in 2021 IEEE Hot Chips 33 Symposium (HCS). IEEE Computer Society, 2021, pp. 1–22.
T. Wang, F. Feng, S. Xiang, Q. Li and J. Xia, "Application Defined On-chip Networks for Heterogeneous Chiplets: An Implementation Perspective," 2022 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2022, pp. 1198-1210, doi: 10.1109/HPCA53966.2022.00091.
https://www.apple.com/tn/newsroom/2022/03/apple-unveils-m1-ultra-the-worlds-most-powerful-chip-for-a-personal-computer/
Rocki, Kamil, et al. "Fast stencil-code computation on a wafer-scale processor." SC20: International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2020.
https://www.youtube.com/watch?v=j0z4FweCy4M
Parasar, Mayank, et al. "Swap: Synchronized weaving of adjacent packets for network deadlock resolution." Proceedings of the 52nd Annual IEEE/ACM International Symposium on Microarchitecture. 2019.
Yin, Jieming, et al. "Modular routing design for chiplet-based systems." 2018 ACM/IEEE 45th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2018.
https://www.uciexpress.org/specification
Xia, Jing, et al. "Kunpeng 920: The first 7-nm chiplet-based 64-Core ARM SoC for cloud services." IEEE Micro 41.5 (2021): 67-75.
https://www.anandtech.com/Gallery/Album/8123#3
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
linux操作系統文章專(zhuān)題:linux操作系統詳解(linux不再難懂) 電能表相關(guān)文章:電能表原理