全面呈現基于DPU的高性能云計算基礎設施建設指南!DPU白皮書(shū)下載
DPU是應對智能計算時(shí)代算力基礎設施的面臨的運行效率低、數據傳輸不可靠、系統可擴展性差等重要挑戰的利器,被行業(yè)公認為繼CPU、GPU之后數據中心中的第三顆主力芯片。
本文引用地址:http://dyxdggzs.com/article/202408/462068.htm過(guò)去五年,DPU技術(shù)高速發(fā)展,特別是近三年,數家國際芯片業(yè)巨頭短時(shí)間內組織研發(fā)力量并投入巨資“搶灘”式發(fā)布DPU產(chǎn)品。發(fā)展至今,DPU技術(shù)無(wú)論從性能、穩定性,還是成本效益上,都取得了長(cháng)足的進(jìn)步,達到了商用部署的成熟階段。
值得注意的是,在DPU技術(shù)走向廣泛采納與實(shí)際應用的過(guò)程中,仍尚需應對一系列深層次挑戰,包括但不限于系統架構的優(yōu)化、現有環(huán)境的兼容適配,以及運維流程的簡(jiǎn)化革新。這對于DPU技術(shù)能否順利融入既有IT生態(tài),實(shí)現效能最大化,以及降低運營(yíng)復雜度至關(guān)重要,因而構成了其長(cháng)遠發(fā)展與市場(chǎng)滲透的關(guān)鍵環(huán)節。
聚焦于DPU在云計算領(lǐng)域的深度整合與優(yōu)化,由中科馭數聯(lián)合處理器芯片全國重點(diǎn)實(shí)驗室、中國計算機學(xué)會(huì )集成電路設計專(zhuān)業(yè)委員會(huì )共同主編的《IaaS on DPU(IoD):下一代高性能算力底座技術(shù)白皮書(shū)》在第二屆中國計算機學(xué)會(huì )芯片大會(huì )期間正式發(fā)布。
這本白皮書(shū)中將焦點(diǎn)轉向了DPU在云計算領(lǐng)域的應用場(chǎng)景和技術(shù)落地,重點(diǎn)闡述了IoD技術(shù)的構成以及與當前主流云計算體系的融合方案,從計算、網(wǎng)絡(luò )、存儲、安全、管控等方面進(jìn)行深度分析,論證了基于DPU構建云計算基礎設施服務(wù)的性能優(yōu)勢與建設路徑,為DPU在云計算的落地沉淀了“Iaas on DPU(IoD)”的技術(shù)路線(xiàn),為DPU的商業(yè)化進(jìn)程謀劃了一條技術(shù)通路。更重要的是,白皮書(shū)還勾勒了一條清晰的建設路徑,指導企業(yè)如何逐步引入并部署IoD技術(shù),以實(shí)現其數據中心向高性能算力底座的平滑遷移。
IaaS on DPU,讓DPU不再為行業(yè)巨頭“專(zhuān)享”
IaaS on DPU是一種探索將云計算的基礎設施組件盡可能下沉到DPU的技術(shù)路線(xiàn),目標是節約基礎設施層算力開(kāi)銷(xiāo)并提升系統性能。
伴隨著(zhù)云計算的蓬勃發(fā)展,當前世界上的主要算力基礎設施幾乎都是通過(guò)云計算技術(shù)進(jìn)行管理與調度,云計算技術(shù)已經(jīng)成為數字世界的“操作系統”。
為了充分發(fā)揮算力基礎設施的能力,云計算系統整體架構也在不斷演進(jìn)。傳統的IaaS 平臺組件功能全部由CPU 算力承載,但是在業(yè)務(wù)驅動(dòng)之下,云計算性能提升需求以及極致利用CPU 算力需求也隨之水漲船高,基于DPU構建IaaS平臺的理念被提出與論證。
DPU作為數據中心的第三顆“主力芯片”,主要通過(guò)其專(zhuān)用處理器優(yōu)化數據中心的網(wǎng)絡(luò )、存儲、安全等處理性能,助力服務(wù)器運行效率顯著(zhù)提升,有效降低成本。因此,在新型數據中心建設時(shí),圍繞DPU構建數據中心網(wǎng)絡(luò )的基礎設施,在其上掛載了各種計算、存儲資源的節點(diǎn),對于系統的資源彈性、運行效率、性能都大有益處。
云計算的佼佼者以亞馬遜網(wǎng)絡(luò )服務(wù)(AWS)為代表,根據披露的材料分析,自2013 年發(fā)布Nitro(DPU) 設備以來(lái),AWS的云計算服務(wù)體系逐漸改造為基于DPU 構建并運行在Nitro 設備中,服務(wù)器上的CPU 算力被完全池化并以近乎100% 的原始算力性能向客戶(hù)售賣(mài)。以此為基礎,AWS 構建了一整套高性能、高穩定性的云服務(wù)體系,成為全球范圍內最大的云服務(wù)供應商。國內阿里云也采用類(lèi)似的體系,其云服務(wù)體系與其自研的DPU 設備緊密配合,幫助阿里云取得了巨大的成功。
這正向循環(huán)促進(jìn)了DPU技術(shù)棧的快速迭代與成熟,也幫助他們發(fā)展成為云計算業(yè)務(wù)領(lǐng)域的領(lǐng)軍企業(yè)。然而,我們也需要看到,這種使用方式的變化,意味著(zhù)對現有云計算架構進(jìn)行一定程度的變革,才能充分發(fā)揮出DPU的優(yōu)勢。這樣“高度定制化”帶來(lái)的平臺架構革新,自然難以簡(jiǎn)單在業(yè)內推廣開(kāi)來(lái)。
如何探索出一條通用云計算系統與標準DPU產(chǎn)品結合的路徑成為業(yè)內關(guān)注的焦點(diǎn)。眾多芯片廠(chǎng)商投身到DPU 技術(shù)領(lǐng)域,在他們的努力之下,DPU的產(chǎn)品形態(tài)定義逐漸清晰,DPU的技術(shù)標準也在不斷完善。與此同時(shí),基礎設施與云計算相關(guān)產(chǎn)業(yè)參與者也正在尋求一種簡(jiǎn)單高效的方法,將DPU的優(yōu)勢運用到自身業(yè)務(wù)系統之中,讓DPU不再是行業(yè)巨頭的“專(zhuān)享”技術(shù),例如Redhat、VMware、Palo Alto 等公司紛紛推出相關(guān)解決方案。
這些方案背后共同的本質(zhì)思想是:將云計算的IaaS層組件從服務(wù)器側卸載后圍繞DPU 構筑高性能算力底座,與AWS、阿里云的技術(shù)路線(xiàn)不謀而合。白皮書(shū)將這種思想所代表的技術(shù)路線(xiàn)統一歸納命名為“IaaS on DPU (IoD)”技術(shù)路線(xiàn),簡(jiǎn)稱(chēng)IoD。
IoD技術(shù)全面賦能高性能云計算基礎設施建設
IoD 技術(shù)的核心思想是依托于DPU的異構運算能力,將云計算平臺的基礎設施組件盡可能下沉到DPU承載,實(shí)現節約CPU開(kāi)銷(xiāo)與提升IaaS服務(wù)性能的目的。同時(shí),基礎設施組件下沉到DPU之后,可以為服務(wù)器側運行的各種業(yè)務(wù)提供一致的網(wǎng)絡(luò )、存儲與安全底座,可以更好地將虛擬機、容器與裸金屬的業(yè)務(wù)調度收斂到統一平臺。
通過(guò)IoD 技術(shù),可以為云計算體系提供以DPU 為核心構造、軟硬件一體化高性能計算底座,對外提供統一管理、高可擴展性、高性能、低成本的IaaS 服務(wù)。在硬件層面為“3U 一體”和“一云多芯”的異構算力管理提供更好的解決方案。通過(guò)對網(wǎng)絡(luò )、存儲、安全、管理等負載的卸載,釋放服務(wù)器的硬件資源,實(shí)現性能加速,提升基礎設施運行效率。此外,通過(guò)IoD 的統一底座技術(shù),可以為云計算系統提供容器、虛擬機、裸金屬業(yè)務(wù)的統一調度和運維管理能力,提升運維管理效率。

賦能通用算力,為Hypervisor卸載提供最佳支撐:在現代云計算環(huán)境中,虛擬化技術(shù)扮演著(zhù)至關(guān)重要的角色。。其中,計算系統虛擬化的核心通常是基于KVM-QEMU 架構的Hypervisor 系統。IoD 技術(shù)能夠將Hypervisor 的部分功能卸載到DPU上,采用的方式是在服務(wù)器側運行一組輕量級組件。一方面響應DPU 的業(yè)務(wù)事件,輔助完成與KVM、LXC 等系統交互,實(shí)現云計算業(yè)務(wù)調度;另一方面輔助將服務(wù)器側文件系統透傳給DPU,幫助下沉的云管系統完成對服務(wù)器側的業(yè)務(wù)監控。通過(guò)這種方式,可以滿(mǎn)足云業(yè)務(wù)平臺下沉DPU 的功能需求。此方法的優(yōu)勢是可以用最小的改造成本完成業(yè)務(wù)卸載,最終目標是實(shí)現主機CPU 資源占用接近” 零” 的理想狀態(tài)。
賦能智能算力,實(shí)現性能與靈活性兼備的無(wú)損網(wǎng)絡(luò ):AI 應用對網(wǎng)絡(luò )的需求極為嚴苛,當前主要通過(guò)無(wú)損網(wǎng)絡(luò )(IB、RoCE)承載RDMA應用,尤其是通過(guò)GDS、GDR 技術(shù)實(shí)現GPU 之間以及GPU 與后端存儲之前的高效互聯(lián)。在無(wú)損網(wǎng)絡(luò )中,DPU 擔任了至關(guān)重要的角色,作為網(wǎng)絡(luò )接入點(diǎn)設備,DPU 實(shí)現了RDMA 協(xié)議棧與擁塞處理技術(shù)的硬件卸載,大幅提升了網(wǎng)絡(luò )性能。由于擁塞處理的復雜性,現在業(yè)界在重點(diǎn)探索軟件定義擁塞控制的新型解決方案,IoD 技術(shù)可以在DPU 側通過(guò)軟件定義的方式實(shí)現網(wǎng)絡(luò )擁塞狀態(tài)的監控與擁塞處理控制,將網(wǎng)絡(luò )處理與上層業(yè)務(wù)解耦,為整個(gè)擁塞處理機制提供更好的靈活性。
賦能云計算網(wǎng)絡(luò ),助力算力連通、算力開(kāi)放:隨著(zhù)數據量的激增和計算需求的多樣化,網(wǎng)絡(luò )性能成為了制約高性能云計算發(fā)展的關(guān)鍵因素之一。網(wǎng)絡(luò )卸載技術(shù)利用DPU的計算能力,將數據包的接收、解析、加密/解密、壓縮/解壓縮、流量控制、負載均衡等網(wǎng)絡(luò )處理任務(wù)從CPU 上卸載下來(lái)。這樣一來(lái),CPU就可以專(zhuān)注于運行應用程序和執行更為復雜的計算任務(wù),而不再需要頻繁地處理網(wǎng)絡(luò )數據包,從而提高了CPU 的使用效率和系統的整體性能。網(wǎng)絡(luò )卸載通過(guò)優(yōu)化網(wǎng)絡(luò )數據處理流程,不僅提高了系統的性能和效率,還增強了安全性,降低了成本,提升了資源分配的靈活性,對于需要處理大量網(wǎng)絡(luò )數據、實(shí)時(shí)通信和高并發(fā)訪(fǎng)問(wèn)的系統尤為重要,是高性能云計算網(wǎng)絡(luò )架構中優(yōu)化性能和資源利用的關(guān)鍵技術(shù)之一。
賦能云計算存儲,提升存算分離架構下的處理性能:在復雜的云計算場(chǎng)景中,DPU 在存儲方向上扮演關(guān)鍵角色。DPU 通過(guò)存儲加速、數據處理、數據安全和智能存儲管理等功能,優(yōu)化存儲系統性能和效率,適用于不同云計算業(yè)務(wù)需求。結合云計算業(yè)務(wù),DPU 可提供高性能存儲加速,滿(mǎn)足對速度和響應時(shí)間要求高的應用;其數據處理功能減輕主機CPU 負擔,提高整體計算效率;其數據安全功能保護云端數據免受攻擊,確保數據隱私和完整性;其智能存儲管理功能優(yōu)化資源利用率,提高云端存儲系統的可靠性和可擴展性。通過(guò)與網(wǎng)絡(luò )存儲設備集成,DPU 實(shí)現高效數據傳輸和存儲管理,為云計算業(yè)務(wù)提供高性能、安全可靠的存儲解決方案,滿(mǎn)足多樣化的存儲需求。
賦能云計算安全,構建“零信任”網(wǎng)絡(luò ):作為下一代云安全的基礎構成,零信任安全的應用離不開(kāi)DPU 基礎設施,借助DPU 的各種硬件加速引擎和網(wǎng)絡(luò )可編程引擎,從底層硬件信任根開(kāi)始構建逐層的安全應用功能,憑借與業(yè)務(wù)和安全應用的深度融合,與云控制平臺的分布式安全策略聯(lián)動(dòng),最終實(shí)現面向云計算場(chǎng)景的零信任網(wǎng)絡(luò )安全體系。DPU 零信任安全架構,可以促進(jìn)零信任安全技術(shù)和應用的快速發(fā)展。
賦能云計算服務(wù)治理,有效降低服務(wù)治理業(yè)務(wù)的處理時(shí)延:在IoD 技術(shù)體系下,可以將原有體系中用來(lái)做服務(wù)治理的Sidecar容器下沉到DPU,同時(shí)采用“集中式”網(wǎng)關(guān)的模式來(lái)完成服務(wù),這一思想也契合了當前服務(wù)治理的技術(shù)發(fā)展方向,如Cilium Service Mesh 與Istio Ambient 等都采用了類(lèi)似的方案。同時(shí)結合主機側協(xié)議棧PRELOAD 技術(shù)與DPU 優(yōu)化的Data Plane 設計,可以有效降低服務(wù)治理業(yè)務(wù)的處理時(shí)延。
未來(lái)展望
當前,云計算產(chǎn)業(yè)正從單純的軟件主導向著(zhù)軟硬件融合的新模式演進(jìn),傳統云服務(wù)在依賴(lài)DPU、GPU 等高性能硬件重構技術(shù)體系的同時(shí),也將對產(chǎn)業(yè)內各個(gè)角色的職責和交互模式進(jìn)行重新定義:
其一,硬件制造和芯片設計廠(chǎng)商將成為云基礎資源的重要提供者。除了傳統通用服務(wù)器供應商外,GPU 和智算服務(wù)器廠(chǎng)商將為MaaS 等新型云計算服務(wù)提供高性能算力基礎,而DPU 廠(chǎng)商則將圍繞異構算力資源和高性能網(wǎng)絡(luò )充分釋放資源潛力、打造3U一體的云計算基礎設施。
其二,云服務(wù)和軟件提供商將重構云計算軟件以適應新型基礎架構。云計算操作系統和應用將根據全新的基礎架構進(jìn)行設計,以充分利用GPU 的并行處理和DPU 的任務(wù)卸載能力。與此同時(shí),針對新型基礎架構的開(kāi)發(fā)框架和服務(wù)也將融入云平臺當中,成為云操作系統不可或缺的一部分。
其三,芯片、服務(wù)器、云服務(wù)商等多方聯(lián)合方案將成為主流。多芯片、多架構組成的云計算基礎設施將使單一廠(chǎng)商打造軟硬件融合解決方案的難度呈指數性增長(cháng),而這將加速產(chǎn)業(yè)內各方走向各抒所長(cháng)、聯(lián)合打造方案的道路。IoD 技術(shù)正是多方聯(lián)合打造的新型技術(shù)方案的典型代表。
評論