特斯拉超級計算機的愿景,是構建一個(gè)統一的加速器。作者 | ZeR0
編輯 | 漠影
芯東西10月1日消息,今日上午,在第二屆特斯拉AI Day上,特斯拉分享了其自研Dojo超級計算機系統的更多技術(shù)進(jìn)展,并公布未來(lái)路線(xiàn)圖。
據介紹,特斯拉首款人形機器人“擎天柱”的大腦就將采用Dojo超級計算機系統。在去年的首屆特斯拉AI Day上,特斯拉展示了其首款AI訓練芯片Dojo D1,以及基于該芯片構建的完整Dojo集群ExaPOD,用于執行AI訓練任務(wù),為其上路車(chē)輛龐大的視頻處理需求提供支撐。當前特斯拉已經(jīng)擁有基于英偉達GPU的大型超算,以及一個(gè)存儲30PB視頻素材的數據中心。
特斯拉技術(shù)專(zhuān)家稱(chēng),特斯拉的車(chē)隊在日常行駛中積累了很多視頻片段,每個(gè)視頻有多幀圖像,需要14億幀才能訓練一個(gè)神經(jīng)網(wǎng)絡(luò ),需要使用10萬(wàn)個(gè)GPU工時(shí)。而特斯拉自研的Dojo超算,能夠提升30%的網(wǎng)絡(luò )訓練速度。Dojo首席系統工程師Bill Chang說(shuō),特斯拉超級計算機的愿景是構建一個(gè)統一的加速器。
會(huì )上,Dojo團隊展示了通過(guò)Dojo實(shí)現Stable Diffusion在火星上運行Cybertruck的圖像。據介紹,只用4個(gè)Dojo機柜就能取代由4000個(gè)GPU組成的72個(gè)GPU機架。Dojo能將通常需要幾個(gè)月的工作減少到了1周。
自去年特斯拉AI Day至今,Dojo開(kāi)發(fā)迎來(lái)了一系列里程碑,包括安裝第一個(gè)Dojo機柜、進(jìn)行2.2mW負載測試等,現在特斯拉正以每天打造一個(gè)Tile的速度推進(jìn)工作。特斯拉還宣布其第一個(gè)ExaPOD預計將在2023年第一季度完工,計劃在帕洛阿爾托總建造7臺ExaPOD。
01.快速試錯,看重熱膨脹系數
特斯拉一直試圖優(yōu)化Dojo設計的可擴展性,并以“快速試錯”的心態(tài)來(lái)克服挑戰。
Dojo加速器具有單個(gè)可擴展計算平面、全局尋址快速存儲器和統一的高帶寬+低延遲。
Bill Chang特別談到電壓調節模塊,它具有高性能、高密度(0.86A/mm2)、復雜集成性。
其電壓調節模塊在24個(gè)月內更新了14個(gè)版本。熱膨脹系數(CTE)很重要,因此特斯拉與供應商合作提供電力解決方案。其CTE降低了50%以上,Dojo的性能是初始擴展的3倍。
在Bill Chang看來(lái),解決每個(gè)級別的密度是實(shí)現系統性能的關(guān)鍵,所有系統組件必須集成到電源模塊中。其集成解決方案包括用軟終端電容器來(lái)減少振動(dòng)等。
特斯拉還展示了一組過(guò)去兩年間從交付定制冷液分配單元(CDU)到安裝第一臺集成Dojo機柜、再到2.2MW機組負載測試的照片。
02.秀Dojo系統全家福,首個(gè)ExaPOD明年完工
下圖是Dojo超級計算機系統,包括D1芯片、訓練Tile和ExaPOD集群。
D1采用臺積電7nm制程工藝,在645mm2的面積上塞了500億顆晶體管,BF16、CFP8算力可達362TFLOPS,FP32算力可達22.6TFLOPS,TDP(熱設計功耗)為400W。相比之下,同樣采用臺積電7nm制程工藝、TDP達400W的英偉達旗艦計算卡A100 GPU,面積為826mm2,晶體管數量達542億顆,FP32峰值算力為19.5TFLOPS。基于D1芯片,特斯拉推出晶圓上系統級方案,通過(guò)應用臺積電InFO_SoW封裝技術(shù),將所有25顆D1裸片都集成到一個(gè)訓練Tile上,每個(gè)Dojo訓練Tile消耗15kW。特斯拉Dojo訓練Tile中有計算、I/O、功率和液冷模塊。
Dojo System Tray有高速連接、密集集成等特性,75mm高度能支持135kg。其BF16/CFP8峰值算力可達到54TFLOPS,功耗100+kW。
Dojo接口處理器是一個(gè)具有高帶寬內存的PCIe卡,利用特斯拉自家TTP接口。
特斯拉傳輸協(xié)議TTP還可以橋接到標準以太網(wǎng),TTPOE可將標準以太網(wǎng)轉換至Z平面拓撲,擁有高Z平面拓撲連接性。
Dojo主機接口的介紹如下:
據介紹,在10機柜系統中,Dojo ExaPOD集群將突破E級算力。其BF16/CFP8峰值算力達到1.1EFLOPS(百億億次浮點(diǎn)運算),并擁有1.3TB高速SRAM和13TB高帶寬DRAM。
03.對打英偉達A100,顯著(zhù)降本增效
接下來(lái)是Dojo ExaPOD的軟件棧。
其軟件性能由硬件性能、利用率和加速器占用率的綜合加成決定。其中利用率涉及編譯器,加速器占用率涉及Ingest Pipeline功能。
在軟件方面,整個(gè)系統可以被視為一個(gè)整體。
借助Dojo編譯器,用戶(hù)可將Dojo大型分布式系統視作一個(gè)加速器。
現場(chǎng),特斯拉首席工程師Rajiv Kurian分享了在Dojo上運行Stable Diffusion,根據“火星上Cybertruck”的提示創(chuàng )建由AI生成的圖像。他打趣道,看起來(lái)它在匹配特斯拉設計團隊之前還有很長(cháng)的路要走。
Dojo編譯器的歸一化Batch Norm結果如下,相比GPU有數量級的延遲優(yōu)勢。
同樣跑經(jīng)典圖像分類(lèi)模型ResNet-50,Dojo可以實(shí)現比英偉達A100更高的幀率。
跑自動(dòng)標注算法、預測汽車(chē)周?chē)形矬w空間占用率的神經(jīng)網(wǎng)絡(luò )模型Occupancy Networks時(shí),相比英偉達A100,Dojo能實(shí)現性能的倍增。
結果,以前要用6個(gè)GPU Box的計算開(kāi)銷(xiāo),現在不到1個(gè)GPU Box就能搞定。
72個(gè)GPU機架才能跑完的自動(dòng)標注算法,現在只要4臺Dojo Cabinet機柜就能做到。

04.結語(yǔ):特斯拉不止是一家汽車(chē)制造商
此前在為特斯拉AI Day預熱時(shí),馬斯克已經(jīng)發(fā)推文預告說(shuō)此次活動(dòng)的目的是為了招募人工智能和機器人領(lǐng)域的工程師,因此內容會(huì )非常硬核。結果也如其所述,本屆AI Day儼然是特斯拉前沿技術(shù)能力的集中展示,從人形機器人的核心技術(shù),到全自動(dòng)駕駛(FSD)的各種先進(jìn)算法,再到Dojo超算的軟硬件系統,干貨相當豐富。從這些在人工智能、自動(dòng)駕駛、機器人及計算硬件相關(guān)的技術(shù)布局,可以看到特斯拉在押注高精尖技術(shù)上的布局之深之廣,這也將是特斯拉吸引更多高端工程人才的絕佳金字招牌。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。