光進(jìn)入芯片,能為高性能計算帶來(lái)什么?
GPT爆火,算力“芯慌”,而數據中心HPC的功率效率也備受關(guān)注,據稱(chēng)共封裝器件(CPO,Co-packaged optics)能將功耗降低30%,每比特成本降低40%。真有這樣的好事?條件成熟了嗎?我們往下看。
CPO市場(chǎng)預期如何?
CPO是將交換芯片和光引擎共同組裝在同一個(gè)插槽上,形成芯片和模組的共封裝。這樣就可以盡可能降低網(wǎng)絡(luò )設備的工作功耗及散熱功耗,在OIF(光互聯(lián)網(wǎng)絡(luò )論壇)的主導下,業(yè)界多家廠(chǎng)商才共同推出了近CPO器件(NPO)和CPO技術(shù)。
共封裝方法橫截面
根據Yole預測,伴隨未來(lái)人工智能(AI)的發(fā)展,數據通信光學(xué)器件一直在增長(cháng),2022-2028年其CAGR將為24%,2028-2033為80%,收入預計將從2022年的3800萬(wàn)美元增長(cháng)到2033年的26億美元。得益于A(yíng)I/ML設備數據移動(dòng)的加速,2022-2033年CAGR為46%。其中CPO將從2022年的600萬(wàn)美元增長(cháng)到2033年的2.87億美元,CAGR為69%。
2022-2033年數據通信光學(xué)收入增長(cháng)預測
2023年,GPT引發(fā)了驅動(dòng)力和應用范式的轉變。高帶寬、每機架高功率預算、HPC新型光鏈路捉襟見(jiàn)肘。隨著(zhù)從聯(lián)網(wǎng)(交換)到處理(AI/ML(機器學(xué)習))的范式轉變,預計2024年將推出首個(gè)基于光學(xué)I/O的封裝內Al系統,而CPO的批量交付預計將在2029年之后。
2023年驅動(dòng)力和應用范式轉變
CPO為何能受到青睞?
CPO受到關(guān)注是由于其在數據中心高性能計算的功率效率。由于近來(lái)宏觀(guān)經(jīng)濟不利,網(wǎng)絡(luò )應用CPO的大多數支持者已暫停了對CPO項目的支持。其主要原因包括:一是可插拔產(chǎn)品的工業(yè)生態(tài)系統需要完善;二是可插拔尺寸的集成電光調制器可以實(shí)現所需的低功耗,且可在不改變現有網(wǎng)絡(luò )系統設計的情況下引入市場(chǎng)。
Yole Intelligence光子學(xué)和傳感部門(mén)高級分析師Martin Vallo博士則表示:“在所需的電密度和光密度、熱管理和能源效率方面,可插拔尺寸將限制其支持6.4T和12.8T容量的能力,使用硅光子學(xué)技術(shù)平臺的共封裝能夠克服上述挑戰?!?/p>
隨著(zhù)技術(shù)進(jìn)步,能夠在商業(yè)系統中更緊密地集成通信和計算技術(shù)的網(wǎng)絡(luò )硬件組件越來(lái)越常見(jiàn)。不過(guò),CPO對AI/ML系統仍保持著(zhù)吸引力。AI模型的規模正在以前所未有的速度增長(cháng),傳統架構(銅基電互連)的芯片對芯片或板對板能力將成為擴展ML的主要瓶頸。因此,HPC及其新的分散架構出現了新的、非常短的光互連。分散設計將服務(wù)器卡上的計算、內存和存儲組件分開(kāi),并分別對其進(jìn)行池化。
通過(guò)先進(jìn)的封裝內光學(xué)I/O技術(shù)將基于光學(xué)的互連用于xPU(CPU、DPU、GPU、TPU、FPGA和ASIC)、內存和存儲器,以實(shí)現必要的傳輸速度和帶寬。
此外,未來(lái)數十億光學(xué)互連(芯片、電路板)的潛力正在推動(dòng)大型代工廠(chǎng)為大規模生產(chǎn)做準備。由于大多數光子制造IP由非代工公司(AyarLabs、Ranovus、思科、Nvidia、Marvell、Lightmatter和許多其他公司)持有,Tower Semiconductor、GlobalFoundries、ASE Group、臺積電和三星等大型代工公司正在準備硅光子工藝流程,以接受設計公司的任何PIC架構。所有這些代工廠(chǎng)都在加入PCIe、CXL和UCIe等行業(yè)聯(lián)盟。
小芯片(chiplet)互連的通用規范允許構建超過(guò)最大掩模尺寸的大型片上系統(SoC)封裝。這有助于在同一封裝內混合來(lái)自不同供應商的組件,并通過(guò)使用較小的片芯來(lái)提高制造產(chǎn)量。每個(gè)小芯片可以使用適合特定器件類(lèi)型或計算性能/功耗要求的不同硅制造工藝。
2023年優(yōu)選CPO參與者供應鏈
對快速增長(cháng)的訓練數據集的預測表明,數據將成為擴展ML模型的主要瓶頸,因此,AI的進(jìn)展可能會(huì )放緩。在A(yíng)I/ML設備中加速數據移動(dòng)是下一代HPC系統采用光學(xué)互連的主要驅動(dòng)因素,在ML硬件中使用光學(xué)I/O有助于應對數據的爆炸性增長(cháng)。
怎樣重拾CPO?
事實(shí)上,在過(guò)去50年里,每十年都會(huì )有一次移動(dòng)技術(shù)創(chuàng )新。移動(dòng)帶寬需求已經(jīng)從語(yǔ)音通話(huà)和****發(fā)展到超高清(UHD)視頻和各種增強現實(shí)/虛擬現實(shí)(AR/VR)應用。盡管疫情對電信基礎設施供應鏈產(chǎn)生了很大影響,但全球消費者和商業(yè)用戶(hù)不斷對網(wǎng)絡(luò )和云服務(wù)產(chǎn)生新的需求。社交網(wǎng)絡(luò )、商務(wù)會(huì )議、UHD視頻流、電子商務(wù)和游戲應用將繼續推動(dòng)增長(cháng)。
每個(gè)家庭和人均連接到互聯(lián)網(wǎng)的設備數量正在增加。隨著(zhù)功能和智能不斷增強的新型數字設備的出現,每年的采用率都在上升。此外,不斷擴展的機器對機器應用,如智能電表、視頻監控、醫療保健監控、連接驅動(dòng)器和自動(dòng)化物流,極大地促進(jìn)了設備和連接的增長(cháng),并推動(dòng)了數據中心基礎設施的擴張。
由于預算削減,CPO社區面臨困難時(shí)期,只有在可插拔設備精疲力竭時(shí)CPO的全面部署才會(huì )發(fā)生。至少在接下來(lái)兩代交換機系統中,CPO很難與可插拔模塊競爭,在很長(cháng)一段時(shí)間內可插拔模塊仍將是首選。由于在數據中心中的網(wǎng)絡(luò )功率效率,CPO最近受到了很多關(guān)注。思科、臉書(shū)/Meta、IBM、英特爾和微軟等行業(yè)重量級公司一直在努力推動(dòng)CPO;博通、GlobalFoundries、Marvell、Quanta Cloud Technology等公司也加入了進(jìn)來(lái)。
分析表明,與數據中心總功耗相比,聯(lián)網(wǎng)節省的功耗可以忽略不計。只有博通、英特爾、Marvell和其他一些CPO公司會(huì )將專(zhuān)有解決方案推向市場(chǎng)。
隨著(zhù)6.4T光學(xué)模塊最晚在2029年到來(lái),CPO和可插拔光學(xué)器件之間可能發(fā)生激烈的競爭,預計CPO系統中的多個(gè)技術(shù)障礙將在此時(shí)得到解決。不過(guò),收發(fā)器行業(yè)正在不斷創(chuàng )新,以推動(dòng)可插拔光學(xué)器件市場(chǎng)。在CPO系統實(shí)現網(wǎng)絡(luò )應用的批量交付之前,將在可插拔設備中使用CPO方法,且光學(xué)引擎將在高性能計算的未來(lái)系統中越來(lái)越受歡迎。行業(yè)生態(tài)系統,包括Ayar Labs、Intel、Ranovus、Lightmatter、AMD、GlobalFoundries和其他圍繞機器學(xué)習(ML)系統供應商Nvidia和HPE,已經(jīng)取得了相當大的進(jìn)展,計劃在2024年至2026年間批量交付產(chǎn)品。
光子集成電路可以實(shí)現高功率和成本效益的光學(xué)互連CPO,可以預計,800G和1.6T可插拔模塊將備受歡迎,因為它們具有100G和200G單波長(cháng)光學(xué)器件的優(yōu)勢,因此可以在QSFP-DD和OSFP-XD尺寸中實(shí)現技術(shù)和成本效益。
光纖距離芯片組也越來(lái)越近,用光將數據引入到集中處理點(diǎn)是架構設計師的主要目標之一。這一趨勢始于十年前安裝在PCB上的光學(xué)組件專(zhuān)有設計。這些嵌入式光學(xué)互連(EOI)的想法在板載光學(xué)聯(lián)盟(COBO)中得到了延續,其制定的規范允許在網(wǎng)絡(luò )設備制造中使用板載光學(xué)模塊。
CPO是一種創(chuàng )新方法,可以將光學(xué)器件和交換機ASIC緊密結合在一起。由于在50T交換芯片中使用16個(gè)3.2Tbps光學(xué)模塊是當今技術(shù)的挑戰,NPO通過(guò)使用高性能PCB基板(一種內插器)解決了這一問(wèn)題。NPO內插器更寬,使芯片和光學(xué)模塊之間的信號路由更容易,同時(shí)仍能滿(mǎn)足信號完整性要求。相比之下,CPO能以更低的信道損耗和更低功耗使模塊和主機ASIC更接近。
運營(yíng)商喜歡怎樣的方案?
如今,光可插拔模塊市場(chǎng)供應鏈已經(jīng)建立完善,包括分立或集成組件供應商、生產(chǎn)****和接收器光學(xué)組件(TOSA和ROSA)、多路復用器、DSP和PCB的光學(xué)公司以及組裝/測試集成商。此外,一個(gè)交換機盒中多個(gè)不同可插拔模塊的互操作性有助于行業(yè)的靈活性。高度集成的光學(xué)器件和硅片非常需要新的工程能力和代工廠(chǎng),這對于傳統的中型企業(yè)來(lái)說(shuō)是不可接受的。只有價(jià)值數十億美元的光學(xué)供應商才能負擔得起從可插拔產(chǎn)品轉向CPO的費用。
需要指出的是,盡管主流部署了主要針對大型云運營(yíng)商的CPO解決方案,但仍有許多小型企業(yè)數據中心沒(méi)有采用最新的互連技術(shù)。這意味著(zhù),即使CPO成為主流技術(shù),可插拔模塊仍將對CPO在技術(shù)或經(jīng)濟上不可行的幾個(gè)應用(如長(cháng)途應用和邊緣數據中心)有很高的需求。預計可插拔技術(shù)在未來(lái)10年內不會(huì )逐步淘汰。不過(guò),可插拔光學(xué)行業(yè)可能會(huì )整合,而CPO市場(chǎng)將形成多供應商商業(yè)模式。
市場(chǎng)調研公司CIR表示,數據中心CPO的部署將在很大程度上受到交換演進(jìn)的驅動(dòng),到2025年,將達到102.4Tbps。CIR表示,與使用可插拔光學(xué)器件相比,CPO可以將功耗降低30%,每比特的成本降低40%。
在組件層面,與前板可插拔產(chǎn)品(FPP)相比,CPO具有潛在的經(jīng)濟效益。例如,正如Ranovus董事長(cháng)兼CEO Hamid Arabzadeh所說(shuō):成本是一個(gè)關(guān)鍵因素,因為不需要PAM4 IC定時(shí)器,“不需要時(shí)鐘和數據恢復(CDR)芯片和其他FPP項目也可能帶來(lái)節約?!?/p>
串行器和解串器(SerDes)鏈路是CPO的熱門(mén)話(huà)題。Martin Vallo博士認為,224Gbps數據速率的標準化SerDes鏈路是使CPO成為主流的必備條件之一,可以通過(guò)多種鏈路類(lèi)型提供信號,包括片對片(D2D)、芯片到芯片、芯片到模塊(C2M)、中距離芯片到芯片(MR)和長(cháng)距離芯片到片(LR)。
FPP和CPO部署模型的比較
與此同時(shí),思科和OIF成員Jock Bovington強調,共封裝的好處之一是降低整體功耗?!安捎霉卜庋b時(shí)——無(wú)論是在同一基板(CPO)上還是在高密度中間層(HDI)基板(NPO)上——通道的損耗都會(huì )大大減少,能夠使用明顯更低功耗的SerDes,如XSR(10dB)或XSR+(13dB)。OIF開(kāi)發(fā)了兩種類(lèi)型的電氣接口?!?/p>
寫(xiě)在最后
2020年,開(kāi)始出現了第一批CPO概念驗證并創(chuàng )建了規范。四大超大型云運營(yíng)商中的兩家——Meta和微軟——積極支持CPO滲透到其云網(wǎng)絡(luò )中。
2022年,交付了數千臺CPO引擎進(jìn)行試點(diǎn)測試。今年,盡管遇到一些宏觀(guān)經(jīng)濟逆風(fēng),將對預算密集型項目產(chǎn)生負面影響,但在硅光子學(xué)進(jìn)步的推動(dòng)下,深度光子學(xué)集成已經(jīng)在某些數據中心應用中證明了可行性。CPO架構也肯定會(huì )在數據通信之外的領(lǐng)域繼續它的故事。
- END -
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。