蘋(píng)果芯片“拼裝”的秘方,在專(zhuān)利里找到了
編者注:蘋(píng)果于3月9日公布其迄今最強自研電腦芯片M1 Ultra,它將兩個(gè)M1 Max芯片拼在一起,使得芯片各項硬件指標直接翻倍,這背后的關(guān)鍵技術(shù)即是蘋(píng)果創(chuàng )新定制的封裝架構UltraFusion。千芯科技董事長(cháng)陳巍通過(guò)分析蘋(píng)果公司與其芯片代工廠(chǎng)臺積電的專(zhuān)利和論文,對這一先進(jìn)封裝技術(shù)進(jìn)行解讀。
2022年3月,蘋(píng)果又一次觸動(dòng)了芯片界的游戲規則。蘋(píng)果發(fā)布的M1 Ultra芯片,是迄今為止該公司最強大的芯片,卻是一個(gè)“拼裝貨”。盡管很多計算芯片已采用Chiplet(芯粒)技術(shù)提升性能,但“拼裝貨”M1 Ultra的性能還是讓PC界震撼了。
M1 Ultra支持高達128GB的高帶寬、低延遲統一內存,支持20個(gè)CPU核心、64個(gè)GPU核心和32核神經(jīng)網(wǎng)絡(luò )引擎,每秒可運行高達22萬(wàn)億次運算,提供的GPU性能是蘋(píng)果M1芯片的8倍,提供的GPU性能比最新的16核PC臺式機還高90%。
蘋(píng)果的新M1 Ultra芯片“拼裝”性能之所以成為可能,要歸功于其UltraFusion架構。其實(shí),UltraFusion功能早已內置于之前發(fā)布的蘋(píng)果M1 Max芯片中,但直到3月的蘋(píng)果Peek Performance活動(dòng)才被明確提出。
該技術(shù)提供2.5TB/s的超高處理器間帶寬,以及低延遲。這一性能是其他多芯片互連技術(shù)帶寬的4倍多。這個(gè)速率帶寬也明顯領(lǐng)先于英特爾、AMD、Arm、臺積電和三星等眾多行業(yè)巨頭組成的通用芯?;ミB聯(lián)盟(UCIe)當前的性能。
▲英特爾等巨頭主推的UCIe
根據蘋(píng)果公司和臺積電已發(fā)表的專(zhuān)利和論文,我們從2.5D/3D互連和技術(shù)層面解析UltraFusion封裝架構。
01.芯片封裝走向2.5D/3D互連
按摩爾定律描述,芯片上的晶體管數量每24個(gè)月翻一番。這對于CPU、GPU、FPGA和DSA依然適用。
▲芯片晶體管數量逐漸增長(cháng)(Y. H. Chen et al., 2020)
隨著(zhù)芯片算力呈指數級增長(cháng),芯片尺寸逐漸超出光刻掩模版尺寸,系統級封裝(System on Package,SoP),特別是Chiplet技術(shù),成為維持摩爾定律,超越掩模版限制的有效方式。(Y. H. Chen et al., 2020)圖靈獎得主姚期智院士也非常重視Chiplet技術(shù),在2020年指導成立了中國自己的Chiplet產(chǎn)業(yè)聯(lián)盟,該聯(lián)盟與北極雄芯共同為國內設計企業(yè)提供Chiplet交流合作的平臺和高性?xún)r(jià)的解決方案。▲高性?xún)r(jià)比的Chiplet方案(北極雄芯/中國Chiplet產(chǎn)業(yè)聯(lián)盟提供)
通過(guò)快速發(fā)展的片間互連技術(shù)和封裝技術(shù),摩爾定律從單獨的晶體管縮放(摩爾定律1.0)演變?yōu)橄到y級縮放(被業(yè)界戲稱(chēng)為摩爾定律2.0)。
▲片間互連技術(shù)逐年快速發(fā)展(Y. H. Chen et al., 2020)
封裝從2D(二維)逐漸發(fā)展到2.5D和3D。集成電路從擴大面積和立體發(fā)展兩條路來(lái)提升整體性能。
▲封裝從2D(二維)逐漸發(fā)展到2.5D和3D(Kuo-Chung Yee et al., 2020)
02.從蘋(píng)果臺積電專(zhuān)利論文,解析UltraFusion架構
從M1 Ultra發(fā)布的UltraFusion圖示,以及蘋(píng)果及其代工廠(chǎng)(臺積電)的公開(kāi)專(zhuān)利和論文來(lái)看,UltraFusion應是基于臺積電第五代CoWoS Chiplet技術(shù)的互連架構。
▲蘋(píng)果公司Chiplet專(zhuān)利與M1 Ultra(參考專(zhuān)利US 20220013504A1)
Chip-on-Wafer-on-Substrate with Si interposer(CoWoS-S)是一種基于TSV的多芯片集成技術(shù),被廣泛應用于高性能計算(HPC)和人工智能(AI)加速器領(lǐng)域。
隨著(zhù)CoWoS的進(jìn)步,可制造的中介層(Interposer)面積穩步增加,從一個(gè)全掩模版尺寸(大約830mm2)到兩個(gè)掩模版尺寸(大約1700mm2)。中介層的面積決定了最大的封裝后的芯片的面積。
第5代CoWoS-S(CoWoS-S5)達到了大至三個(gè)全光罩尺寸(~2500mm2)的水平。通過(guò)雙路光刻拼接方法,該技術(shù)的硅中介層可容納1200mm2的多個(gè)邏輯芯粒和八個(gè)HBM(高帶寬內存)堆棧。芯粒與硅中介層的采用面對面(Face to Face,互連層與互連層對接)的連接方式。
▲CoWoS技術(shù)所能承載的總芯片面積逐漸增大(P. K. Huang 2021)
在UltraFusion技術(shù)中,通過(guò)使用裸片縫合(Die Stitching)技術(shù),可將4個(gè)掩模版拼接來(lái)擴大中介層的面積。在這種方法中,4個(gè)掩模被同時(shí)曝光,并在單個(gè)芯片中生成四個(gè)縫合的“邊緣”。
▲UltraFusion架構互連技術(shù)(單層與多層,參考專(zhuān)利US 20220013504A1/US 20210217702A1)
根據蘋(píng)果公司的專(zhuān)利顯示,在這一技術(shù)中,片間互連可以是單層金屬,也可以是多層金屬。(US 20220013504A1/US 20210217702A1)
03.六大技術(shù)特別優(yōu)化
UltraFusion不僅僅是簡(jiǎn)單的物理連接結構。在這一封裝架構中,有幾項特別優(yōu)化過(guò)的技術(shù)。(P. K. Huang 2021)
1)低RC互連
在UltraFusion中,有新的低RC(電容x電阻=傳輸延遲)金屬層,以在毫米互連尺度上提供更好的片間信號完整性。與多芯片模塊(MCM)等其他封裝解決方案相比,UltraFusion的中介層在邏輯芯粒之間或邏輯芯粒和存儲器堆棧之間提供密集且短的金屬互連。片間完整性更好,且能耗更低,并能以更高的時(shí)鐘速率運行。這種新的中介層互連方案將走線(xiàn)電阻和通孔電阻降低了50%以上。
▲跨中介層傳輸的互連功耗控制(US 20210217702A1)
2)互連功耗控制
進(jìn)行互連緩沖器的功耗控制,有效3)優(yōu)化TSV
高縱橫比的硅通孔(TSV)是硅中介層技術(shù)另一個(gè)非常關(guān)鍵的部分。UltraFusion/CoWoS-S5重新設計了TSV,優(yōu)化了傳輸特性,以適合高速SerDes傳輸。
4)集成在中介層的電容(iCAP)
UltraFusion5)新的熱界面材料
UltraFusion通過(guò)集成在CoWoS-S5中的新型非凝膠型熱界面材料(TIM),熱導率>20W/K,覆蓋率達到100%,為各個(gè)高算力芯粒提供更好的散熱支持,從而增強整體散熱。▲通過(guò)Die-Stitching提高良率并降低成本(US 20220013504A1)
6)通過(guò)Die-Stitching技術(shù)有效提升封裝良率降低成本
UltraFusion中,僅將KGD(Known Good Die)進(jìn)行鍵合,這樣避免了傳統的WoW(Wafer on Wafer)或CoW(Chip on Wafer)中失效的芯粒被封裝的問(wèn)題,進(jìn)而提升封裝后的良率,降低了整體的平均成本。(壞的芯片越少,在固定的流片和研發(fā)費用前提下,單芯片平均成本就越低)
04.結語(yǔ):為更強算力芯片提供想象空間
本文中,我們從蘋(píng)果公司和臺積電的專(zhuān)利和論文出發(fā),對UltraFusion技術(shù)進(jìn)行了初步的解析。
UltraFusion充分結合了封裝互連技術(shù)、半導體制造和電路設計技術(shù),為整合面積更大、性能更高的算力芯片提供了巨大的想象空間,為計算架構的發(fā)展提供了非常好的助力和參照。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。