讓大模型訓練更高效,奇異摩爾用互聯(lián)創(chuàng )新方案定義下一代AI計算
近一段時(shí)間以來(lái),DeepSeek現象級爆火引發(fā)產(chǎn)業(yè)對大規模數據中心建設的思考和爭議。在訓練端,DeepSeek以開(kāi)源模型通過(guò)算法優(yōu)化(如稀疏計算、動(dòng)態(tài)架構)降低了訓練成本,使得企業(yè)能夠以低成本實(shí)現高性能AI大模型的訓練;在推理端,DeepSeek加速了AI應用從訓練向推理階段的遷移。因此,有觀(guān)點(diǎn)稱(chēng),DeepSeek之后算力需求將放緩。不過(guò),更多的國內外機構和研報認為,DeepSeek降低了AI應用的門(mén)檻,將加速AI大模型應用落地,吸引更多的企業(yè)進(jìn)入這個(gè)賽道,算力需求仍將繼續增長(cháng),不過(guò)需求重心從“單卡峰值性能”轉向“集群能效優(yōu)化”。比如,SemiAnalysis預測,全球數據中心容量將從2023年的49GW增長(cháng)至2026年的96GW,其中新建智算中心容量將占增量的85%。近日,全球四大巨頭(Meta、亞馬遜、微軟及)公布的2025 AI基礎設施支出總計超3000億美元,相比2024年增長(cháng)30%。
本文引用地址:http://dyxdggzs.com/article/202502/467073.htm
(數據來(lái)源:科技巨頭公開(kāi)披露報告)
(圖:奇異摩爾創(chuàng )始人兼CEO田陌晨)
奇異摩爾創(chuàng )始人兼CEO田陌晨表示:“‘Scaling Law’依然在延續。從Transformer的獨領(lǐng)風(fēng)騷到MoE專(zhuān)家模型的創(chuàng )新突圍,AI領(lǐng)域正邁向萬(wàn)億、甚至十萬(wàn)億參數規模的AI大模型訓練時(shí)代。DeepSeek-R1推理模型的問(wèn)世離不開(kāi)基礎模型Deepseek-V3的龐大訓練積累。在這一背景下,強大的算力集群依然是支撐AI的基石。而如何提高集群的線(xiàn)性加速比,一直是產(chǎn)業(yè)的核心話(huà)題。與此同時(shí),AI算力網(wǎng)絡(luò )的重要性日益凸顯,它讓數據在集群中各個(gè)層面、各個(gè)維度上都能夠快速傳輸,實(shí)現各節點(diǎn)資源的高效調動(dòng)?!?
為此,作為行業(yè)領(lǐng)先的AI網(wǎng)絡(luò )全棧式互聯(lián)產(chǎn)品及解決方案提供商,奇異摩爾給出了一套極具競爭力的解決方案——基于高性能RDMA和Chiplet技術(shù),利用“Scale Out”“Scale Up”“Scale Inside”三大理念,提升算力基礎設施在網(wǎng)間、片間和片內的傳輸效率,為智能算力發(fā)展賦能。
Scale Out——打破系統傳輸瓶頸
DeepSeek的成功證明了開(kāi)源模型相較于閉源模型具有一定的優(yōu)越性,隨著(zhù)模型的智能化趨勢演進(jìn),模型體量的增加仍然會(huì )是行業(yè)發(fā)展的主要趨勢之一。為了完成千億、萬(wàn)億參數規模AI大模型的訓練任務(wù),通用的做法一般會(huì )采用Tensor并行(TP)、Pipeline并行(PP)、和Data并行(DP)策略來(lái)拆分訓練任務(wù)。隨著(zhù)MoE(Mixture of Experts,混合專(zhuān)家)模型的出現,除了涉及上述并行策略外,還引入了專(zhuān)家并行(EP)。其中,EP和TP通信數據開(kāi)銷(xiāo)較大,主要通過(guò)Scale Up互聯(lián)方式應對。DP和PP并行計算的通信開(kāi)銷(xiāo)相對較小,主要通過(guò)Scale Out互聯(lián)方式應對。
因而,如下圖所示,當下主流的萬(wàn)卡集群里存在兩種互聯(lián)域——GPU南向Scale Up互聯(lián)域(Scale Up Domain,SUD)和GPU北向Scale Out互聯(lián)域(Scale Out Domain,SOD)。田陌晨強調:“以Scale Up和Scale Out雙擎驅動(dòng)方式構建大規模、高效的智算集群,是應對算力需求爆發(fā)的有效手段?!?/span>
智算集群里的Scale Up和Scale Out
在這個(gè)集群網(wǎng)絡(luò )中,Scale Out專(zhuān)注于橫向/水平的擴展,強調通過(guò)增加更多計算節點(diǎn)實(shí)現集群規模的擴展。當前,遠程直接內存訪(fǎng)問(wèn)(RDMA)已經(jīng)成為構建Scale Out網(wǎng)絡(luò )的主流選擇。作為一種host-offload/host-bypass技術(shù),RDMA提供了從一臺計算機內存到另一臺計算機內存的直接訪(fǎng)問(wèn),具有低延遲、高帶寬的特性,在大規模集群中扮演著(zhù)重要的角色。如下圖所示,RDMA主要包含?InfiniBand(IB)、基于以太網(wǎng)的RoCE和基于TCP/IP的iWARP?。其中,IB和以太網(wǎng)RDMA是算力集群里應用最廣泛的技術(shù)。
RDMA應用和實(shí)現方式(來(lái)源:知乎 @Savir)
IB是專(zhuān)門(mén)為RDMA開(kāi)發(fā)的一種網(wǎng)絡(luò )通信技術(shù),具有高帶寬、低延遲等優(yōu)勢,且IB默認是無(wú)損網(wǎng)絡(luò ),無(wú)需特殊設置。得益于這些優(yōu)勢,過(guò)往IB在Scale Out網(wǎng)絡(luò )構建中占據主導地位。然而,IB需要專(zhuān)門(mén)支持該技術(shù)的網(wǎng)卡和交換機,價(jià)格是傳統網(wǎng)絡(luò )的5-10倍,成本相對較高,且IB交換機交期較長(cháng)。同時(shí),IB兼容性差,難以和大多數以太網(wǎng)設備兼容,例如網(wǎng)卡、線(xiàn)纜、交換機和路由器等,無(wú)法成為行業(yè)統一的發(fā)展路線(xiàn)。
隨著(zhù)集群規模增大,以太網(wǎng)RDMA獲得了主流廠(chǎng)商的廣泛支持。以太網(wǎng)RDMA同樣具有高速率、高帶寬、CPU負載低等優(yōu)勢,在低時(shí)延和無(wú)損網(wǎng)絡(luò )特性方面也已經(jīng)和IB性能持平。同時(shí),以太網(wǎng)RDMA具有更好的開(kāi)放性、兼容性和統一性,更利于做大規模的組網(wǎng)集群。從一些行業(yè)代表性案例來(lái)看,如字節跳動(dòng)的萬(wàn)卡集群,Meta公司的數萬(wàn)卡集群,以及特斯拉希望打造的十萬(wàn)卡集群,都一致選擇了以太網(wǎng)方案。此外,因為硬件通用和運維簡(jiǎn)單,以太網(wǎng)RDMA方案更具性?xún)r(jià)比。
雖然以太網(wǎng)RDMA已經(jīng)被公認是未來(lái)Scale Out的大趨勢,不過(guò)田陌晨指出:“如果是基于RoCEv2構建方案仍存在一些問(wèn)題,比如亂序需要重傳,負載分擔不完美,存在Go-back-N問(wèn)題,以及DCQCN 部署調優(yōu)復雜等。在萬(wàn)卡和十萬(wàn)卡集群中,業(yè)界需要增強型以太網(wǎng)RDMA以應對上述這些挑戰,超以太網(wǎng)傳輸(Ultra Ethernet Transport,UET)便是下一代AI計算和HPC里的關(guān)鍵技術(shù)?!?
為了能夠進(jìn)一步發(fā)揮以太網(wǎng)和RDMA技術(shù)的潛能,博通、思科、Arista、微軟、Meta等公司牽頭成立了超以太網(wǎng)聯(lián)盟(UEC)。如下圖所示,在UEC規范1.0的預覽版本中,UEC從軟件API、運輸層、鏈路層、網(wǎng)絡(luò )安全和擁塞控制等方面對Transport Layer傳輸層做了全面的優(yōu)化,關(guān)鍵功能包括FEC(前向糾錯)統計、鏈路層重傳(LLR)、多路徑報文噴發(fā)、新一代擁塞控制、靈活排序、端到端遙測、交換機卸載等。根據AMD方面的數據,UEC就緒(UEC-ready)系統能夠提供比傳統RoCEv2系統高出5-6倍的性能。
UEC規范1.0示意圖(來(lái)源:UEC)
田陌晨表示:“UEC是專(zhuān)門(mén)為AI網(wǎng)絡(luò )Scale Out互聯(lián)成立的國際聯(lián)盟,致力于通過(guò)Modernized RDMA優(yōu)化AI和HPC工作負載。借助UEC的關(guān)鍵性能,Scale Out網(wǎng)絡(luò )能夠充分利用系統內所有可用的傳輸路徑,并最小化網(wǎng)絡(luò )擁塞。當前基于RDMA RoCE的解決方案未來(lái)也可以通過(guò)踐行UEC聯(lián)盟的標準升級各自的以太網(wǎng)產(chǎn)品方案,打造更大規模的無(wú)損集群通信?!?
奇異摩爾打造的Kiwi NDSA-SNIC AI原生智能網(wǎng)卡便是一款UEC就緒方案,性能比肩全球標桿ASIC產(chǎn)品。Kiwi NDSA SmartNIC提供領(lǐng)先行業(yè)的高性能,支持高達800Gbps的傳輸帶寬,提供低至μs級的數據傳輸延時(shí),滿(mǎn)足當前數據中心行業(yè)400Gbps-800Gbps升級需求,可實(shí)現Tb級別萬(wàn)卡集群間無(wú)損數據傳輸。
奇異摩爾Kiwi NDSA-SNIC AI原生智能網(wǎng)卡方案(來(lái)源:奇異摩爾)
借助UEC就緒RDMA中的路徑感知擁塞控制、有序消息傳遞、選擇性確認重傳、自適應路由及數據包噴灑等關(guān)鍵功能,Kiwi NDSA-SNIC能夠充分保障AI網(wǎng)絡(luò )間數據的穩定傳輸。比如,Kiwi NDSA-SNIC提供的自適應路由及數據包噴灑功能可以充分發(fā)揮高速網(wǎng)絡(luò )的性能,支持高級分組噴灑,提供多路徑數據包傳送和細粒度負載平衡,有效應對傳輸擁塞。相同用例還有:通過(guò)有序消息傳遞(In-Order Message Delivery)來(lái)降低系統延遲,通過(guò)路徑感知擁塞控制(Path Aware Congestion Control)來(lái)優(yōu)化多個(gè)路徑的數據包流,等等。
此外,Kiwi NDSA-SNIC還擁有很多其他的關(guān)鍵特性。比如,Kiwi NDSA-SNIC具有出色的高并發(fā)特性,支持多達數百萬(wàn)個(gè)隊列對,可擴展內存空間達到GB;Kiwi NDSA-SNIC具有可編程性,可應對各種網(wǎng)絡(luò )任務(wù)加速,為Scale Out網(wǎng)絡(luò )帶來(lái)持續創(chuàng )新的功能,并保證與未來(lái)的行業(yè)標準無(wú)縫兼容。
綜合而言,奇異摩爾的Kiwi NDSA-SNIC AI原生智能網(wǎng)卡是一個(gè)擁有高性能、可編程的Scale Out網(wǎng)絡(luò )引擎,將開(kāi)啟AI網(wǎng)絡(luò ) Scale Out發(fā)展的新篇章。田陌晨稱(chēng):“當前,奇異摩爾已經(jīng)成為UEC聯(lián)盟成員。隨著(zhù)以太網(wǎng)逐漸過(guò)渡到超以太網(wǎng),奇異摩爾愿攜手聯(lián)盟伙伴共同探討并踐行Scale Out相關(guān)標準的制定和完善,并第一時(shí)間為行業(yè)帶來(lái)性能領(lǐng)先的UEC方案,推動(dòng)AI網(wǎng)絡(luò ) Scale Out技術(shù)向前發(fā)展?!?/span>
奇異摩爾UEC會(huì )員(來(lái)源:UEC官網(wǎng))
Scale Up——讓計算芯片配合更高效
和橫向/水平擴展的Scale Out不同,Scale Up是垂直/向上擴展,目標是打造機內高帶寬互聯(lián)的超節點(diǎn)。上述提到,TP張量并行以及EP專(zhuān)家并行需要更高的帶寬和更低的時(shí)延來(lái)進(jìn)行全局同步。通過(guò)Scale Up的方式,將更多的算力芯片GPU集中到一個(gè)節點(diǎn)上,是非常有效的應對方式。如今的Scale Up實(shí)際上就是一個(gè)以超高帶寬為核心的機內GPU-GPU組網(wǎng)方式,還有一個(gè)名稱(chēng)是超帶寬域(HBD,High Bandwidth Domain)。
英偉達GB200 NVL72的推出引領(lǐng)著(zhù)國內外AI網(wǎng)絡(luò )生態(tài)對HBD技術(shù)的廣泛探討。英偉達GB200NVL72服務(wù)器是一個(gè)典型的超大HBD,實(shí)現了36組GB200(36個(gè)Grace CPU,72個(gè)B200 GPU)之間的超高帶寬互聯(lián)。在這個(gè)HBD系統里,第五代 NVLink是最關(guān)鍵的,它能夠提供GPU-GPU之間雙向1.8TB的傳輸速率,使得這個(gè)HBD系統可以作為一個(gè)大型GPU去使用,訓練效率相較于H100系統提升了4倍,能效提升了25倍。
NVL72互聯(lián)架構(來(lái)源:英偉達)
和IB一樣,NVLink也是由英偉達主導,雖然性能強勁但是生態(tài)封閉,只服務(wù)于英偉達的高端GPU。由于沒(méi)有NVLink和NVSwitch這樣的技術(shù),此前其他廠(chǎng)商主要采用full mesh或者cube-mesh結構,以8卡互聯(lián)為主,而16-32卡互聯(lián)是下一代方案。
DeepSeek事件引發(fā)了業(yè)界對于上述NVLink和HBD需求的不同預期。但中長(cháng)期發(fā)展來(lái)看,相比軟件迭代速度以小時(shí)來(lái)計算,硬件的迭代則是以年為計算的循序漸進(jìn)過(guò)程,不會(huì )一蹴而就。據SemiAnalysis預計大型模型的標準只會(huì )隨著(zhù)未來(lái)的模型發(fā)布而繼續升高,但從經(jīng)濟效用上來(lái)說(shuō),其所對應的硬件必須堅持使用并有效 4-6 年,而不僅僅是直到下一個(gè)模型發(fā)布。
對此,田陌晨認為:“未來(lái)MoE模型的進(jìn)階路線(xiàn)在一定程度上存在不確定性,創(chuàng )新隨時(shí)可能發(fā)生。但國產(chǎn)AI網(wǎng)絡(luò )的生態(tài)閉環(huán)勢在必行。英偉達NVLink和Cuda的護城河仍然存在,首先要解決Scale Up互聯(lián)國產(chǎn)替代方案有沒(méi)有的問(wèn)題,再來(lái)看做到哪種程度。未來(lái)隨著(zhù)國產(chǎn)大模型、芯片架構等軟硬件生態(tài)的協(xié)同發(fā)展,有望逐步實(shí)現國產(chǎn)算力閉環(huán)?!?/span>
如今,科技巨頭正聯(lián)合生態(tài)上下游在GPU-GPU高效互聯(lián)方面主要分為兩個(gè)流派:內存語(yǔ)義和消息語(yǔ)義。內存語(yǔ)義Load/Store/Atomic是GPU內部總線(xiàn)傳輸的原生語(yǔ)義,英偉達NVLink便是基于內存語(yǔ)義,對標NVLink的UAlink等也是基于這種語(yǔ)義;消息語(yǔ)義則是采用類(lèi)似Scale Out的DMA語(yǔ)義Send/Read/Write,將數據進(jìn)行打包傳輸,亞馬遜和Tenstorrent等公司便是基于消息語(yǔ)義打造Scale Up互聯(lián)方案。
內存語(yǔ)義和消息語(yǔ)義各有千秋。內存語(yǔ)義是GPU內部傳輸的原生語(yǔ)義,處理器負擔更小,在數據包體量小時(shí)效率更高;消息語(yǔ)義采用數據打包的方式,隨著(zhù)數據包體量變大,性能逐漸追上了內存語(yǔ)義,隨著(zhù)AI大模型體量增大,這一點(diǎn)也非常重要。
不過(guò),田陌晨指出:“無(wú)論是內存語(yǔ)義還是消息語(yǔ)義,對于廠(chǎng)商而言,都面臨一些共性的挑戰,比如傳統GPU直出將IO集成在GPU內部,性能提升受到了光罩尺寸的嚴格限制,留給IO的空間非常有限,IO密度提升困難;Scale Up網(wǎng)絡(luò )和數據傳輸協(xié)議復雜,計算芯片廠(chǎng)商大都缺乏相關(guān)經(jīng)驗,尤其是開(kāi)發(fā)交換機芯片的經(jīng)驗;除NVLink之外,其他Scale Up協(xié)議并不成熟且不統一,協(xié)議迭代對計算芯片迭代造成了巨大的困擾?!?/span>
GPU IO集成在GPU內部(來(lái)源:奇異摩爾)
為了能夠更好地應對上述挑戰,產(chǎn)業(yè)界提出了一種創(chuàng )新的GPU直出方式——計算和IO分離。奇異摩爾NDSA-G2G互聯(lián)方案便是這條技術(shù)路徑里非常有競爭力的一款方案。
借助NDSA-G2G可以實(shí)現計算芯粒和IO芯粒解耦,通過(guò)通用芯?;ヂ?lián)技術(shù)UCIe進(jìn)行互聯(lián)。這樣做的好處是,只需要犧牲一點(diǎn)點(diǎn)的芯片面積(小百分之幾),就可以將寶貴的中介層資源近乎100%用于計算,并按照客戶(hù)的需求靈活地增加IO芯粒的數量,且計算芯粒和IO芯??梢曰诓煌墓に嚰夹g(shù)。再加上IO芯粒的復用特性,能夠顯著(zhù)提升高性能計算芯片的性能和性?xún)r(jià)比。
NDSA-G2G的第二大優(yōu)勢是提升IO密度和性能,具有高帶寬、低延時(shí)和高并發(fā)的特性。在高帶寬方面,基于NDSA-G2G芯粒,可以實(shí)現1TB級別的網(wǎng)絡(luò )層吞吐量,TB級的GPU側吞吐量;在低延時(shí)方面,NDSA-G2G芯粒提供百ns級的數據傳輸延時(shí)和ns級D2D數據傳輸延時(shí);在高并發(fā)方面,該產(chǎn)品支持多達數百萬(wàn)個(gè)隊列對,可擴展系統中的內存資源。也就是說(shuō),借助奇異摩爾NDSA-G2G芯粒能夠賦能?chē)a(chǎn)AI芯片實(shí)現自主突圍,構建性能媲美英偉達NVSwitch+NVLink的Scale Up方案。
Kiwi NDSA-G2G 產(chǎn)品示意圖(來(lái)源:奇異摩爾)
NDSA-G2G的第三大優(yōu)勢是具有出色的靈活性。如上所述,目前Scale Up技術(shù)路線(xiàn)并不統一,且智算中心廠(chǎng)商在協(xié)議方面大都采用自有協(xié)議,或者自己主導的聯(lián)盟協(xié)議。這就導致高性能計算芯片需要在設計時(shí)考慮未來(lái)2~3年,甚至是3~5年的協(xié)議發(fā)展,具有非常大的挑戰。NDSA-G2G以計算芯粒和IO芯粒分離的方式讓IO芯??梢造`活升級,同時(shí)NASG-G2G基于具有可編程性,可以支持目前市面上各種IO協(xié)議。這種靈活性讓高性能計算芯片廠(chǎng)商可以從容應對當前Scale Up技術(shù)路線(xiàn)不統一且協(xié)議混亂的挑戰。
同時(shí),田陌晨也呼吁:“希望科技行業(yè)在Scale Up方向上能夠擁抱一種開(kāi)放而統一的物理接口,實(shí)現更好的協(xié)同發(fā)展,這也是打造國產(chǎn)自主可控算力底座的關(guān)鍵一步?!?/span>
Scale Inside——全面提升計算芯片傳輸效率
在Scale Out和Scale Up 高速發(fā)展的過(guò)程中,作為算力基礎單元,Scale Inside的進(jìn)度也沒(méi)有落下,并致力于通過(guò)先進(jìn)封裝技術(shù)彌補摩爾定律速度放緩的影響。在整個(gè)智算系統里,更高算力的計算芯片能夠進(jìn)一步提升Scale Up和Scale Out的性能水平,使得AI大模型的訓練更加高效。
當前,單顆高性能計算芯片的成本已經(jīng)非??植?,隨著(zhù)制程工藝進(jìn)一步精進(jìn),這一數字還將繼續飆升,因而Chiplet技術(shù)得到了廣泛的重視。Chiplet技術(shù)允許通過(guò)混合封裝的方式打造高性能計算芯片,也就是說(shuō)計算單元和IO、存儲等其他功能單元可以選擇不同的工藝實(shí)現,具有極高的靈活性,允許廠(chǎng)商根據自己的需求進(jìn)行定制芯粒,不僅能夠顯著(zhù)降低芯片設計和制造的成本,良率也能夠得到很大的改善。
在Scale Inside方向上,奇異摩爾能夠提供豐富的Chiplet技術(shù)方案,包括Kiwi Link UCIe Die2Die接口IP、Central IO Die,3D Base Die系列等。其中,Kiwi Link全系列支持UCIe標準,具有業(yè)界領(lǐng)先的高帶寬、低功耗、低延時(shí)特性,并支持多種封裝類(lèi)型。Kiwi Link支持高達16~32 GT/s的傳輸速率和低至ns級的傳輸延遲,支持Multi-Protocol多協(xié)議,包括PCIe、CXL和Streaming。
Kiwi Fabric互聯(lián)架構(來(lái)源:奇異摩爾)
綜合而言,奇異摩爾的解決方案能夠從“Scale Out”“Scale Up”“Scale Inside”三大角度,推動(dòng)AI大模型訓練效率的提升。在Scale Out方面,奇異摩爾已經(jīng)是超以太網(wǎng)聯(lián)盟UEC的成員,能夠在第一時(shí)間響應UEC規范1.0以及后續規范;在Scale Up方面,奇異摩爾NDSA-G2G芯粒不僅能夠幫助科技公司打造媲美英偉達NVSwitch+NVLink性能的Scale Up方案,適配各種技術(shù)路線(xiàn)和協(xié)議,也正在引領(lǐng)計算芯片的設計革新;在Scale Inside方案,奇異摩爾的Kiwi Link UCIe Die2Die接口IP、Central IO Die、3D Base Die系列等方案能夠幫助廠(chǎng)商打造具有高效傳輸能力的高性能計算芯片。
這些方案很好地踐行了奇異摩爾公司的使命——以互聯(lián)為中心,依托Chiplet和RDMA技術(shù),構筑AI高性能計算的基石?!?strong>對于國產(chǎn)AI大模型和國產(chǎn)AI芯片產(chǎn)業(yè)而言,奇異摩爾的方案是新質(zhì)生產(chǎn)力的代表,有著(zhù)更大的潛能值得去挖掘。為實(shí)現國產(chǎn)AI芯片產(chǎn)業(yè)的‘中國夢(mèng)’,奇異摩爾不僅提供支持最前沿協(xié)議的IO芯粒,以實(shí)現高速率、高帶寬、低時(shí)延的傳輸表現,還在Chiplet路線(xiàn)上獨辟蹊徑,用創(chuàng )新的芯片架構助力打造更高性能的AI芯片。奇異摩爾愿與國內公司攜手,為國產(chǎn)AI芯片產(chǎn)業(yè)發(fā)展添磚加瓦,共同勾畫(huà)國產(chǎn)AI發(fā)展的廣闊藍圖?!碧锬俺孔詈笳f(shuō)。
更多信息:市場(chǎng)與媒體聯(lián)絡(luò ):marcom@kiwimoore.com
評論