曾經(jīng)大書(shū)特書(shū),馬斯克為何最近不提特斯拉超算Dojo了
2月7日消息,多年來(lái),埃隆·馬斯克(Elon Musk)一直在談?wù)?a class="contentlabel" href="http://dyxdggzs.com/news/listbylabel/label/Dojo">Dojo——這臺將成為特斯拉人工智能戰略核心的超級計算機。Dojo的重要性不言而喻,2024年7月,馬斯克曾表示,公司AI團隊將在10月機器人出租車(chē)發(fā)布前“加倍投入”Dojo,以加速其發(fā)展。
本文引用地址:http://dyxdggzs.com/article/202502/466728.htm那么,Dojo究竟是什么?為什么它對特斯拉的長(cháng)期戰略如此關(guān)鍵?
簡(jiǎn)而言之,Dojo是特斯拉自主研發(fā)的超級計算機,專(zhuān)用于訓練“完全自動(dòng)駕駛”(FSD)神經(jīng)網(wǎng)絡(luò )。增強Dojo的計算能力,是特斯拉實(shí)現完全自動(dòng)駕駛并推動(dòng)機器人出租車(chē)落地的重要一環(huán)。目前,已有數百萬(wàn)輛特斯拉汽車(chē)搭載FSD,能夠執行部分自動(dòng)駕駛任務(wù),但仍然需要駕駛員全程保持注意力。
特斯拉已發(fā)布Cybercab機器人出租車(chē),并計劃于今年6月在奧斯汀推出自有車(chē)隊的自動(dòng)叫車(chē)服務(wù)。此外,公司在2024年第四季度財報電話(huà)會(huì )議上表示,計劃于2025年在美國推出無(wú)人監管的FSD服務(wù)。
馬斯克曾強調,Dojo是實(shí)現完全自動(dòng)駕駛的關(guān)鍵。然而,如今特斯拉似乎已接近這一目標,他卻對Dojo保持沉默。
自2024年8月起,業(yè)界的關(guān)注點(diǎn)已轉向Cortex——特斯拉在奧斯汀總部打造的全新AI訓練超級集群,旨在解決現實(shí)世界的AI問(wèn)題。馬斯克表示,Cortex將具備“海量存儲能力”,專(zhuān)用于訓練FSD和Optimus機器人。
在2024年第四季度股東會(huì )上,特斯拉更新了Cortex的進(jìn)展,卻未提及Dojo。特斯拉正大舉投資AI、Dojo和Cortex,以推進(jìn)汽車(chē)及人形機器人的自動(dòng)化??紤]到電動(dòng)車(chē)市場(chǎng)競爭日益激烈,特斯拉未來(lái)的成功很大程度上取決于其在A(yíng)I領(lǐng)域的突破。因此,深入了解Dojo、Cortex及其發(fā)展現狀,變得尤為重要。
Dojo的背景
馬斯克的目標遠不止于造車(chē),他希望特斯拉成為一家AI公司,通過(guò)模擬人類(lèi)感知,破解自動(dòng)駕駛的核心難題。
目前,大多數自動(dòng)駕駛企業(yè)依賴(lài)多種傳感器(如激光雷達、雷達和攝像頭)及高精度地圖進(jìn)行定位,而特斯拉堅持僅依靠攝像頭采集視覺(jué)數據,并通過(guò)神經(jīng)網(wǎng)絡(luò )進(jìn)行處理,從而實(shí)現自動(dòng)駕駛。
特斯拉前AI負責人安德烈·卡帕西(Andrej Karpathy)在2021年AI Day上曾表示,公司試圖“從零開(kāi)始構建一種合成動(dòng)物”。
相比之下,Alphabet旗下Waymo等公司已通過(guò)傳感器與機器學(xué)習的傳統方法,商業(yè)化L4級自動(dòng)駕駛汽車(chē),可在特定條件下實(shí)現完全無(wú)人駕駛。但特斯拉至今尚未推出不需要駕駛員的自動(dòng)駕駛系統。
目前,約180萬(wàn)用戶(hù)支付8000至1.5萬(wàn)美元訂閱FSD。特斯拉計劃通過(guò)Dojo訓練AI軟件,并以OTA(無(wú)線(xiàn)更新)方式推送至用戶(hù)車(chē)輛。特斯拉的大規模部署,使其積累了海量駕駛視頻數據,以訓練FSD。公司的核心邏輯是:數據越多,越接近實(shí)現真正的完全自動(dòng)駕駛。
然而,一些行業(yè)專(zhuān)家對這種“數據驅動(dòng)”策略持懷疑態(tài)度。
普渡大學(xué)硅谷電子與計算機工程教授阿南德·拉格納坦(Anand Raghunathan)表示:“首先,經(jīng)濟成本會(huì )成為限制因素,訓練過(guò)程很快會(huì )變得極其昂貴?!贝送?,他指出,“有些人認為,我們可能會(huì )耗盡有價(jià)值的數據。更多數據不等于更多信息,關(guān)鍵在于這些數據是否真正有助于構建更好的模型,以及訓練過(guò)程能否有效提煉這些信息?!?/p>
盡管存在這些質(zhì)疑,短期內數據驅動(dòng)的趨勢仍將持續。而數據的增長(cháng)意味著(zhù)更高的計算需求,以存儲和處理這些信息,訓練特斯拉的AI模型。這正是Dojo的用武之地。
什么是超級計算機?
Dojo是特斯拉專(zhuān)為人工智能訓練打造的超級計算機系統,主要用于FSD神經(jīng)網(wǎng)絡(luò )的訓練。其名稱(chēng)來(lái)源于武術(shù)練習場(chǎng)“道場(chǎng)”(Dojo),寓意其作為AI訓練平臺的核心作用。
一臺超級計算機由成千上萬(wàn)個(gè)稱(chēng)為“節點(diǎn)”(node)的小型計算機組成。每個(gè)節點(diǎn)都配備自己的中央處理器(CPU)和圖形處理器(GPU)。CPU負責整體管理,而GPU則處理高強度計算任務(wù),例如將復雜運算拆分成多個(gè)并行任務(wù)。GPU在機器學(xué)習領(lǐng)域至關(guān)重要,尤其是在FSD模擬訓練中。它們同樣驅動(dòng)著(zhù)大語(yǔ)言模型的發(fā)展,這也是為何生成式人工智能的崛起,使英偉達成為全球市值最高的科技公司之一。
即便特斯拉擁有自己的計算硬件,它仍然大量采購英偉達的GPU來(lái)訓練人工智能模型。
特斯拉為何需要超級計算機?
特斯拉采用“純視覺(jué)”方案進(jìn)行自動(dòng)駕駛,這正是其需要超級計算機的核心原因。FSD神經(jīng)網(wǎng)絡(luò )依賴(lài)海量駕駛數據進(jìn)行訓練,以識別和分類(lèi)道路上的物體,并作出駕駛決策。當FSD激活時(shí),神經(jīng)網(wǎng)絡(luò )需要持續實(shí)時(shí)收集和處理視覺(jué)數據,其處理速度必須與人類(lèi)的視覺(jué)感知能力相匹配。
換句話(huà)說(shuō),特斯拉希望打造一個(gè)數字化的“人類(lèi)視覺(jué)皮層”及“大腦決策系統”。
要實(shí)現這一目標,特斯拉必須存儲并處理從全球車(chē)輛收集的海量視頻數據,并運行數百萬(wàn)次模擬訓練AI模型。
目前,特斯拉依賴(lài)英偉達GPU支撐其Dojo計算系統,但它并不希望完全依賴(lài)第三方芯片,原因包括英偉達芯片成本高昂,以及特斯拉希望打造更高效、低延遲的計算系統。因此,公司AI團隊決定開(kāi)發(fā)自研硬件,以比傳統系統更高效地訓練AI模型。
這一計劃的核心,是特斯拉自主研發(fā)的D1芯片,專(zhuān)為AI計算優(yōu)化。
特斯拉D1芯片:Dojo的計算核心
特斯拉秉持與蘋(píng)果類(lèi)似的理念,認為軟硬件應協(xié)同設計,以提升整體性能。因此,特斯拉致力于擺脫對標準GPU硬件的依賴(lài),轉而開(kāi)發(fā)自家芯片來(lái)驅動(dòng)Dojo。
2021年,在特斯拉AI Day上,公司發(fā)布了D1芯片——一塊手掌大小的硅芯片。D1芯片由臺積電(TSMC)采用7納米工藝制造。據特斯拉介紹,該芯片擁有500億個(gè)晶體管,芯片面積達645平方毫米,專(zhuān)為高效計算和快速處理復雜任務(wù)而設計。
“我們能夠同時(shí)進(jìn)行計算和數據傳輸,我們自研的指令集架構(ISA)完全針對機器學(xué)習任務(wù)進(jìn)行了優(yōu)化,”特斯拉前自動(dòng)駕駛硬件高級主管甘納什·文卡塔拉馬南(Ganesh Venkataramanan)在2021年AI Day上表示,“這是一款純粹為機器學(xué)習打造的芯片?!?/p>
然而,目前D1芯片的性能仍不及英偉達A100 GPU,后者同樣由臺積電采用7納米工藝制造,擁有540億個(gè)晶體管,芯片尺寸更大(826平方毫米),因此計算能力略強于D1。
為了進(jìn)一步提升計算能力和數據吞吐量,特斯拉的AI團隊將25顆D1芯片集成為一個(gè)計算單元(Tile)。
每個(gè)Tile的計算性能為9千萬(wàn)億次浮點(diǎn)運算/秒(9 petaflops),帶寬達到36太字節/秒(36TB/s),并內置所有所需的電源、冷卻和數據傳輸硬件??梢詫ile理解為由25個(gè)獨立計算單元組成的“小型超級計算機”。
進(jìn)一步擴展架構:
? 6個(gè)Tile組成一個(gè)機架(Rack)
? 2個(gè)機架構成一個(gè)機柜(Cabinet)
? 10個(gè)機柜組成一個(gè)ExaPOD超級計算系統
在2022年AI Day上,特斯拉表示,Dojo的計算能力將通過(guò)部署多個(gè)ExaPOD進(jìn)行擴展。這些模塊化架構共同組成特斯拉的超級計算集群。
此外,特斯拉正在研發(fā)新一代D2芯片,以解決信息流瓶頸。D2芯片將不同的計算單元直接集成至單片硅片上,而非通過(guò)互連多個(gè)獨立芯片,從而提升計算效率并降低延遲。
特斯拉尚未披露D1芯片的具體訂單量或預計交付數量,也未公布Dojo全面啟用D1芯片的時(shí)間表。
2024年6月,一位用戶(hù)在社交平臺X上發(fā)帖稱(chēng):“埃隆正在得克薩斯州建造一個(gè)巨大的GPU冷卻系統?!瘪R斯克回應稱(chēng),特斯拉的目標是在未來(lái)18個(gè)月內實(shí)現“50%使用特斯拉自研AI硬件,50%使用英偉達/其他芯片”。其中,“其他”可能包括AMD芯片,這一點(diǎn)得到了馬斯克2024年1月的確認。
Dojo對特斯拉意味著(zhù)什么?
掌握自研芯片生產(chǎn),意味著(zhù)特斯拉未來(lái)可能以更低成本快速擴展AI算力,特別是在特斯拉與臺積電擴大芯片產(chǎn)能的情況下。
這也意味著(zhù),特斯拉未來(lái)或許不再依賴(lài)英偉達的芯片,畢竟這些芯片價(jià)格高昂,且供應日益緊張。
在2024年第二季度財報電話(huà)會(huì )議上,馬斯克曾表示,英偉達硬件的需求“高得驚人,以至于我們很難穩定采購到所需的GPU?!彼a充道:“我非常擔心,我們是否能夠按需獲取足夠的GPU,因此,我們必須加大對Dojo的投入,以確保具備所需的訓練能力?!?/p>
也就是說(shuō),盡管特斯拉仍在使用英偉達芯片訓練AI,但它正在努力降低對英偉達的依賴(lài)。去年6月,馬斯克在X平臺發(fā)文稱(chēng):
“特斯拉今年在A(yíng)I相關(guān)領(lǐng)域的支出大約為100億美元,其中約一半用于內部研發(fā),主要涵蓋特斯拉自研AI推理計算機、車(chē)輛上的傳感器以及Dojo。至于A(yíng)I訓練超級計算集群的建設,英偉達硬件約占成本的三分之二。我目前估計,特斯拉今年在英偉達芯片上的采購支出將在30億至40億美元之間?!?/p>
值得注意的是,“推理計算”指的是特斯拉汽車(chē)在實(shí)時(shí)運行過(guò)程中執行的AI計算,與Dojo負責的AI訓練計算是分開(kāi)的。
盡管馬斯克對Dojo寄予厚望,他也多次承認,這一項目存在失敗的可能。
從長(cháng)遠來(lái)看,特斯拉或許可以依托AI部門(mén)開(kāi)辟全新的商業(yè)模式。馬斯克曾表示,首個(gè)版本的Dojo專(zhuān)為特斯拉計算機視覺(jué)數據的標注與訓練而設計,這對于FSD和人形機器人Optimus的訓練至關(guān)重要,但用途較為局限。
不過(guò),他也透露,未來(lái)版本的Dojo將更加適用于通用AI訓練。然而,這也面臨一個(gè)重大挑戰——當前幾乎所有AI軟件都是基于GPU架構開(kāi)發(fā)的。如果要讓Dojo用于通用AI模型訓練,就必須對軟件進(jìn)行重構。
除非特斯拉選擇向外部租賃其計算能力,就像AWS和Azure提供云計算服務(wù)那樣。事實(shí)上,馬斯克在2024年第二季度財報電話(huà)會(huì )議上提到,他認為“Dojo未來(lái)有潛力在算力競爭中與英偉達一較高下?!?/p>
摩根士丹利在2023年9月的一份報告中預測,Dojo可以通過(guò)自動(dòng)駕駛出租車(chē)和AI軟件服務(wù)等新業(yè)務(wù)模式,為特斯拉帶來(lái)額外的收入增長(cháng),甚至可能為公司市值貢獻5000億美元。
簡(jiǎn)而言之,Dojo的芯片不僅是特斯拉的一種戰略保障,未來(lái)還有可能帶來(lái)可觀(guān)的回報。
Dojo進(jìn)展如何?
此前有報道,特斯拉于2023年7月開(kāi)始生產(chǎn)Dojo。然而,馬斯克在2023年6月的一篇帖子中表示,Dojo“已經(jīng)上線(xiàn)并執行有用任務(wù)數月”。
大約在同一時(shí)間,特斯拉曾表示,到2024年2月,Dojo將躋身全球五大最強超級計算機之列。但截至目前,特斯拉尚未公開(kāi)披露相關(guān)信息,因此這一目標是否達成仍存疑。
此外,特斯拉還預計,到2024年10月,Dojo的總計算能力將達到100 ExaFLOPS(每秒100萬(wàn)億億次浮點(diǎn)運算)。按照計算,假設每塊D1芯片的算力為362 TFLOPS(每秒362萬(wàn)億次浮點(diǎn)運算),特斯拉需要超過(guò)27.6萬(wàn)塊D1芯片,或約32.05萬(wàn)塊英偉達A100 GPU,才能達到這一目標。
特斯拉曾在2024年1月承諾投資5億美元,在紐約州布法羅的超級工廠(chǎng)建設一臺Dojo超級計算機。
2024年5月,馬斯克透露,特斯拉奧斯汀超級工廠(chǎng)的后部將留作“超密集水冷超級計算集群”——但現在我們知道,這一空間實(shí)際上用于部署Cortex,而非Dojo。
在2024年第二季度財報電話(huà)會(huì )議結束后,馬斯克在X平臺上發(fā)文稱(chēng),特斯拉AI團隊正在使用Tesla HW4 AI計算機(現更名為AI4),與英偉達GPU結合進(jìn)行訓練。他提到,當前訓練集群中包含:
? 90,000塊英偉達H100 GPU
? 40,000臺AI4計算機(即Tesla HW4 AI計算機)
馬斯克補充道:“到年底,Dojo 1的訓練能力將相當于8000塊H100 GPU。這不算龐大,但也不容小覷?!?/p>
截至目前,特斯拉尚未確認這些芯片是否已全面上線(xiàn)并支持Dojo運行。在2024年第四季度財報電話(huà)會(huì )議上,Dojo甚至未被提及。相反,特斯拉宣布已在Q4完成Cortex的部署,并表示Cortex是推動(dòng)FSD V13版本實(shí)現的關(guān)鍵。
評論