獨家對話(huà)阿里云張獻濤:自主最強DPU神龍的秘訣
作者 | 心緣
編輯 | 漠影
如果細數最近火爆的科技概念,DPU必然位列其中。
這是英偉達一手捧紅的新造富故事,是2021年SoC領(lǐng)域最熱火朝天的創(chuàng )業(yè)賽道,也是數據中心繼CPU、GPU后的又一大“臺柱子”。
盡管在云計算領(lǐng)域已經(jīng)培育多年,但對于外界來(lái)說(shuō),DPU并不是一個(gè)容易理解的概念,各路玩家的產(chǎn)品定義和結構設計也不盡相同。
總體來(lái)說(shuō),DPU是個(gè)軟硬一體的數據處理單元,通常以架構的形式存在,可以幫CPU“減負”,解決一些CPU處理數據方面的短板問(wèn)題,并提供硬件加速的網(wǎng)絡(luò )、存儲、安全、基礎設施管理等服務(wù)。
而追溯DPU的源頭,真正實(shí)現大規模商用DPU架構的,歷數全球,主要有兩家云計算巨頭——西方的亞馬遜云AWS,東方的阿里云。
2017年10月,阿里云的神龍架構橫空出世;僅1個(gè)月后,AWS的Nitro也走到了歷史臺前。這兩個(gè)為了解決虛擬化問(wèn)題而相繼問(wèn)世的創(chuàng )新產(chǎn)品,被業(yè)界視作迄今最成功的兩款DPU。
一手促成神龍架構誕生的張獻濤,也是國內最懂DPU的人物之一。
如今,第四代阿里云神龍已經(jīng)開(kāi)始支撐阿里云的大規模云上業(yè)務(wù),并在計算、存儲、網(wǎng)絡(luò )、安全四項關(guān)鍵指標達成業(yè)界最高水平。
近日,芯東西獨家對話(huà)阿里巴巴集團研究員、阿里云彈性計算產(chǎn)品線(xiàn)負責人張獻濤(花名旭卿),聽(tīng)他講述云端業(yè)務(wù)需求變化、持續創(chuàng )新的研發(fā)心得,以及對DPU熱潮的獨到思考。
在他看來(lái),這不是一類(lèi)適合走通用路線(xiàn)的芯片,對于云廠(chǎng)商而言,DPU是一個(gè)軟硬件技術(shù)棧結合極其密切的工作,是軟件定義的計算架構,DPU必須以自研為主,做到相關(guān)軟硬件技術(shù)棧完全可控,且經(jīng)過(guò)超大規模驗證。而做通用DPU的公司很難滿(mǎn)足云廠(chǎng)商的需求,被收購或許是最佳結局
01.風(fēng)起云計算
DPU的新風(fēng)口來(lái)得突然。
2020年10月,在NVIDIA GTC 2020大會(huì )上,NVIDIA創(chuàng )始人兼CEO黃仁勛宣布推出一種全新數據處理器——DPU。
這顆被稱(chēng)作“未來(lái)計算三大支柱之一”的處理單元,赫然闖入大眾和資本的視野。
此時(shí),距離阿里云軟硬一體虛擬化架構「神龍」的誕生,已經(jīng)過(guò)去整整四年。如今,其被市場(chǎng)視作阿里云的DPU,而這個(gè)頗具開(kāi)創(chuàng )性的創(chuàng )新架構,當初是為解決傳統虛擬化技術(shù)應用到云計算帶來(lái)的成本、性能、服務(wù)質(zhì)量以及安全問(wèn)題而生的。
張獻濤是負責阿里云神龍的核心人物,于2014年加入阿里云,彼時(shí)他已經(jīng)從事虛擬化技術(shù)研究約十年,阿里云剛走到第五個(gè)年頭。傳統虛擬化架構的種種缺陷,日漸成為掣肘這家云計算公司降本增效、提升服務(wù)質(zhì)量的頑疾。
虛擬化技術(shù)是云計算的基礎,它將原本不可分割的硬件資源抽象成共享資源池,按需分配和共享計算、存儲、網(wǎng)絡(luò )資源。
而管理資源,就需占用掉一些原本用于運行業(yè)務(wù)負載的CPU和內存,也就造成了資源損耗。
比如一個(gè)工廠(chǎng)有100位工人,如果他們全部去流水線(xiàn)上干活,那么資源利用率是100%;但如果從中抽出10人負責統籌管理,那么余下只有90人在流水線(xiàn)上干活,利用率則降為90%。
隨著(zhù)云計算業(yè)務(wù)規模持續擴大規模,資源爭搶、算力損失、性能瓶頸等問(wèn)題日益嚴峻,尋求解局之道已然迫在眉睫。
經(jīng)過(guò)兩年摸索,阿里云的穩定性不再是問(wèn)題。2016年,張獻濤開(kāi)始思考下一代虛擬化技術(shù)方案在哪里?什么樣的方案,才能符合阿里云未來(lái)長(cháng)期的發(fā)展?
神龍(X-Dragon)應運而生。
這是團隊頭腦風(fēng)暴的結果。假如造出一個(gè)專(zhuān)門(mén)負責做虛擬化的架構,那么CPU的算力資源就被釋放出來(lái),能夠更聚焦于運行云上業(yè)務(wù)。
第一代神龍正式立項的時(shí)間是2017年4月1日。將問(wèn)題定義出來(lái)后,張獻濤開(kāi)始組建團隊,從系統架構設計到芯片及硬件開(kāi)發(fā),到服務(wù)器開(kāi)發(fā),再到系統軟件的研發(fā)適配,初始團隊總共二十幾個(gè)人干了半年的時(shí)間,成功于2017年10月將神龍上線(xiàn)。
自此以后,作為處理高速數據流的高手,神龍架構從CPU手頭接過(guò)虛擬化的重任,一路帶飛存儲、網(wǎng)絡(luò )、安全等關(guān)鍵性能
02.從小試牛刀,到大規模落地
一開(kāi)始,張獻濤其實(shí)不太接受「DPU」這個(gè)命名方式。
DPU的“D”有幾種常見(jiàn)解釋?zhuān)ā皵祿?、“數據中心”、“以數據為中心”等??蓢栏褚饬x上來(lái)講,數據中心的哪個(gè)主力芯片(如CPU、GPU)不符合這些特征呢?
因此,阿里云對神龍架構的闡述是,真正為云而生的、軟硬一體的技術(shù)架構。在他看來(lái),未來(lái)是一個(gè)云的時(shí)代,需要這樣的技術(shù)架構來(lái)全面解決成本、性能、安全等問(wèn)題。目前來(lái)看,DPU想做的似乎是類(lèi)似的事情,市場(chǎng)也認為阿里云和AWS做的就是DPU。
阿里云和AWS之所以近乎“同步”地推出DPU,最直接的原因是云計算發(fā)展到一定階段后,研發(fā)人員意識到,有了這樣的數據處理架構,成本將大幅下降,同時(shí)性能會(huì )大幅提升,再加上云廠(chǎng)商的規?;瘍?yōu)勢能為客戶(hù)提供更有競爭力的高性?xún)r(jià)比服務(wù)。
無(wú)論是阿里云的神龍,還是AWS的Nitro,早期都主攻虛擬化的性能損耗、資源損耗問(wèn)題,即成本和性能問(wèn)題。
張獻濤給我們算了一筆賬,那時(shí)阿里云營(yíng)收規模已經(jīng)達到上百億元,如果存儲、網(wǎng)絡(luò )占用約10%的CPU資源,則意味著(zhù)年損失10多億元。無(wú)論從提升性能還是優(yōu)化成本的角度,研發(fā)神龍都勢在必行。
取得技術(shù)突破只是第一步。神龍上線(xiàn)后,如何大規模應用成為新的挑戰。
阿里云先在內部業(yè)務(wù)試水,2017年雙十一期間部署了1000臺支撐天貓大促業(yè)務(wù),成功驗證沒(méi)有問(wèn)題。上汽集團是第一家吃螃蟹的外部客戶(hù),提出愿意嘗試這個(gè)新產(chǎn)品,與阿里云共擔風(fēng)險。雙方一起磨了近兩個(gè)月,到臨近春節,終于將穩定性、性能等問(wèn)題通通解決。
在此類(lèi)種子客戶(hù)的支持下,阿里云神龍打磨出大規模上云的功底,并開(kāi)始成長(cháng)為阿里云最核心的競爭力之一。
從2019年起,阿里巴巴集團的所有業(yè)務(wù)、包括阿里云的計算類(lèi)服務(wù)全部遷至神龍架構。到2021年10月,第四代神龍架構問(wèn)世,其存儲IOPS高達300萬(wàn)、網(wǎng)絡(luò )PPS達5000萬(wàn)、網(wǎng)絡(luò )延時(shí)最低5微秒等多項指標刷新業(yè)界最高水平。
根據知名國際市場(chǎng)研究機構Gartner公布的2021年度全球云計算廠(chǎng)商整體能力評估報告,阿里云IaaS基礎設施能力超越AWS拿下全球第一,并在計算、存儲、網(wǎng)絡(luò )、安全四項核心評比中獲得最高分
03.云廠(chǎng)商必須自研DPU
云計算市場(chǎng)正在飛速擴容,當每臺云服務(wù)器中都需要一個(gè)DPU,誰(shuí)能躋身頭部,誰(shuí)就可能享受到難以估量的市場(chǎng)紅利。
僅在2021年,獲得新融資的國內DPU企業(yè)就有不少于7家,包括湖州芯啟源、北京大禹智芯、珠海星云智聯(lián)、上海益思芯科技、深圳云豹智能、上海云脈芯聯(lián)、北京中科馭數等。
其中多數企業(yè)單筆融資額達數億元,且投資方不乏知名科技企業(yè)身影。比如,星云智聯(lián)A輪融資由美團獨家投資,騰訊投資了云豹智能,云脈芯聯(lián)的投資方有字節跳動(dòng)、壁仞科技……
但資本只看見(jiàn)熱度,未必能看清里面的坑。
在張獻濤看來(lái),DPU不應該被視作「智能網(wǎng)卡」的繼任者,智能網(wǎng)卡只解決網(wǎng)絡(luò )加速問(wèn)題,而DPU的功能遠比智能網(wǎng)卡豐富。
有些DPU創(chuàng )企其實(shí)仍在做智能網(wǎng)卡,也有創(chuàng )企想在智能網(wǎng)卡的基礎上做演進(jìn)。但他認為:“在一個(gè)智能網(wǎng)卡上打補丁是解決不了的,因為本身設計理念是不一致的?!睆募軜媽用鎭?lái)講,DPU的架構是在DPU系統上插入一臺服務(wù)器從而解決整臺服務(wù)器相關(guān)的數據處理加速和安全及管控問(wèn)題,而智能網(wǎng)卡架構則是在服務(wù)器上插入一個(gè)網(wǎng)卡解決網(wǎng)絡(luò )加速的問(wèn)題,二者有本質(zhì)性的區別。
形雖差之毫厘,神卻謬以千里。
自2017年推出神龍后,張獻濤印象中,幾乎所有DPU公司的DPU架構、接口、功能模塊、能力實(shí)現等,都是仿照神龍已公開(kāi)的架構來(lái)設計。
可為何仿照神龍設計,仍然很難做好DPU?
核心問(wèn)題出在對云業(yè)務(wù)的理解。張獻濤說(shuō),第三方廠(chǎng)商通過(guò)跟客戶(hù)、工程師溝通,只能得到對云業(yè)務(wù)需求的片面了解,所以最終做出來(lái)的效果很難滿(mǎn)足客戶(hù)需求。
他堅信,云廠(chǎng)商必須自研DPU架構?!叭绻皇煜ぼ浖軜嫼拖到y軟件棧,不熟悉自家技術(shù)棧中哪些地方才是瓶頸,很難把它設計得很好,而這些都是外部DPU公司很難拿到的技術(shù)信息?!?/span>
換個(gè)角度來(lái)看,對云廠(chǎng)商而言,只有從硬件架構到固件到軟件棧都自研,才能做到整個(gè)技術(shù)鏈路的可控,它才能成為一個(gè)負責任的云廠(chǎng)商。
近年云計算廠(chǎng)商的動(dòng)向印證了張獻濤的判斷。京東云研發(fā)基于自研智能芯片的虛擬化架構京剛,谷歌云與英特爾合作研發(fā)基礎設施處理芯片IPU,字節跳動(dòng)宣布其自研DPU將通過(guò)火山引擎云產(chǎn)品對外服務(wù)……
“從終局上判斷,今天DPU的創(chuàng )業(yè)公司沒(méi)有太好的出路,最好的出路就是把相關(guān)業(yè)務(wù)出售,賣(mài)給有需要的云計算公司,通過(guò)被收購變現。”張獻濤說(shuō),如果對云計算業(yè)務(wù)不夠了解,一味想把DPU做成通用架構是很難成功的,做DPU的公司,最終都要和云廠(chǎng)商做產(chǎn)品和技術(shù)的共建合作,這樣成功的可能性才會(huì )提升。
DPU不適合走通用路線(xiàn)
“業(yè)界投資的DPU都想嘗試著(zhù)做一顆通用的DPU,有的甚至想推配套的軟件技術(shù)棧作為業(yè)界標準,其實(shí)出發(fā)點(diǎn)就是有問(wèn)題的。”
這是因為DPU完全由軟件定義的架構,由客戶(hù)需求或業(yè)務(wù)發(fā)展形態(tài)驅動(dòng),與客戶(hù)整個(gè)后端軟件棧結合非常緊密,很難做到通用的程度。
在張獻濤看來(lái),真正做出DPU,并且讓客戶(hù)規?;闷饋?lái),其實(shí)比AI芯片還要難。
關(guān)鍵難點(diǎn)在于,它的軟件生態(tài)注定培養不起來(lái),因為各家公司的軟件技術(shù)棧都發(fā)展多年,很難廢掉去適配一個(gè)難于自控的外部廠(chǎng)商推薦的技術(shù)棧,所以在三年之后,DPU領(lǐng)域一定會(huì )出現整合,一些公司可能會(huì )消失或者被賣(mài)掉。
DPU的使用者通常是云計算公司或做虛擬化軟件的公司。如果只是針對某一個(gè)軟件棧來(lái)做,無(wú)法實(shí)現通用,如果想做得非常通用,“因為各家的軟件棧都不一樣,整個(gè)安全機制的設計也都不一樣,則很難和云廠(chǎng)商進(jìn)行適配”。
這與GPU+CUDA的邏輯不同。英偉達花了十多年研發(fā),又遇到深度學(xué)習爆發(fā)的契機,才將這樣的生態(tài)穩固下來(lái),成為業(yè)界的標準。
而在DPU領(lǐng)域,各家公司的軟件棧已經(jīng)存在,互不相同,強行標準化很難實(shí)現,并且研發(fā)周期長(cháng)、固件很難開(kāi)放、接口的定義不一致等都是不可控的因素。
“如果想做一個(gè)統一的標準,放之四海而皆準的標準或者軟件生態(tài),是非常難的?!睆埆I濤解釋說(shuō),當每家軟件棧不一樣時(shí),DPU要處理的數據格式也都不同,因此很難將這樣的一個(gè)完全固化、做出統一的東西
05.配合軟件迭代節奏,升級安全可信功能
經(jīng)過(guò)四年的歷練,神龍架構積累了哪些優(yōu)勢?又如何取得超越AWS Nitro的性能?
張獻濤首先提到「快速迭代」。
做軟硬融合,需要架構隨著(zhù)軟件迭代而升級改造。研發(fā)一顆ASIC的周期大概是24個(gè)月起步,這對于互聯(lián)網(wǎng)軟件迭代的節奏來(lái)說(shuō),實(shí)在太久了。
因此,阿里云神龍采用FPGA的模式來(lái)做,并且做到了FPGA和配套系統軟件全面在線(xiàn)實(shí)時(shí)熱升級的能力,以便每周均可升級,通過(guò)靈活地持續優(yōu)化,最終實(shí)現更極致的性能。
“到今天為止,最適合做DPU的還是可編程可升級的FPGA。”張獻濤亦談到選用FPGA的局限性,隨著(zhù)將更多功能做到DPU里,FPGA的邏輯單元數等可能會(huì )制約DPU的發(fā)展,這就更需要技術(shù)人員不浪費每一個(gè)邏輯單元把必要功能和性能做到極致。
要做出好的DPU,對于「軟硬件融合設計的理解」也必須到位。這是一個(gè)從軟件、硬件到對應固件和上層系統不斷迭代的過(guò)程。
軟硬件之間的接口甚至寄存器的設計,都需與軟件充分融合,如果企業(yè)對自己的軟件掌握程度很高,又對軟硬件協(xié)同的思路、對架構和相關(guān)協(xié)議理解深刻,才能逐步打磨好性能。
第一代神龍的網(wǎng)絡(luò )轉發(fā)做到了每秒600萬(wàn)數據包,當時(shí)Nitro大約為每秒300萬(wàn);經(jīng)過(guò)更多數據鏈路上的任務(wù)改用硬件加速,第三代神龍做到2400萬(wàn),最新一代更是做到了5000萬(wàn)。傳統RDMA組網(wǎng)能力通常為千臺規模,而第四代神龍的eRDMA組網(wǎng)能力可至數10萬(wàn)臺,真正實(shí)現了RDMA能力的通用化和平民化,助力高性能計算以及當前流行的云原生軟件架構的發(fā)展需求。
此外,新一代神龍加入了對「可信計算與加密計算」的支持,實(shí)現系統可信防篡改與數據可用不可見(jiàn),確??蛻?hù)對「安全」的要求。
后續阿里云計劃在所有數據鏈路經(jīng)過(guò)神龍架構時(shí)做更多預處理,從而大大提升DPU的計算效率。原來(lái)計算1萬(wàn)條數據,所有數據都落到內存里挨個(gè)算,現在做預處理后可能只需要計算50條,這樣一來(lái),效率就提升了數倍。
據張獻濤透露,接下來(lái),除了做到速度更快、帶寬更高、延遲更低、每秒IO次數更多外,神龍架構還將在性能、穩定性、安全性方面層層加碼,推動(dòng)神龍作為加密計算的載體
06.結語(yǔ):未來(lái)走向,破解內存墻難題
隨著(zhù)DPU一路走俏,云計算廠(chǎng)商陸續通過(guò)自研或投資的方式謀篇這一賽道,一些DPU設計創(chuàng )企亦開(kāi)始嶄露頭角。
“我們2017年神龍的架構就公開(kāi)了,大家都在follow這個(gè)標準來(lái)做,今天發(fā)展到這樣的程度,我們覺(jué)得還是挺欣慰的?!睆埆I濤認為,DPU發(fā)展正在走入正軌,更多人意識到它的重要性對于業(yè)界是一件好事,它將提升整個(gè)云計算的效率。
DPU本質(zhì)上是一種基礎軟硬件協(xié)同設計的系統,從研發(fā)出來(lái)到一些種子用戶(hù)去用起來(lái),需要兩三年時(shí)間。他相信,未來(lái)兩到三年內,DPU的熱度都將持續,但到一定的階段,它會(huì )像今天做AI芯片一樣走向收斂,一些不正確的思路將被逐漸淘汰掉。
面向未來(lái),DPU領(lǐng)域可做的東西還很多。
比如新興的存內計算,本質(zhì)上要解決的問(wèn)題與DPU是一致的,即如何減少數據搬移,從而提升計算效率和降低功耗。所有數據經(jīng)過(guò)DPU時(shí)都可以進(jìn)行一次存內計算過(guò)濾,只有有效的數據才會(huì )進(jìn)入主CPU內存,這樣整個(gè)計算系統的性能也將會(huì )數倍的提升。
“縱觀(guān)未來(lái),你會(huì )發(fā)現尤其是今天異構計算變成潮流的情況下,幾乎所有DPU努力的方向都是為了解決掉內存墻帶來(lái)數據處理效率下降的問(wèn)題?!睆埆I濤相信,未來(lái)DPU的發(fā)展值得期待,并將一定和某種業(yè)務(wù)結合度越來(lái)越高。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。