<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 特斯拉,“偽裝”成車(chē)企的AI芯片公司?

特斯拉,“偽裝”成車(chē)企的AI芯片公司?

發(fā)布人:晴朗雨 時(shí)間:2023-06-29 來(lái)源:工程師 發(fā)布文章

近日,知名半導體分析機構Semianalysis作者Dylan Patel對特斯拉在A(yíng)I芯片和云服務(wù)、大數據搜集和AI訓練方面的布局做了深入分析。

文章認為,特斯拉志在成為全球領(lǐng)先的人工智能公司之一。迄今為止,特斯拉也許在自動(dòng)駕駛領(lǐng)域的技術(shù)并不是最先進(jìn)的,Alphabet旗下的Waymo技術(shù)被公認為最為先進(jìn)的技術(shù)。此外,特斯拉在生成式人工智能領(lǐng)域的涉足較少。然而,特斯拉擁有數據收集能力、專(zhuān)用計算能力、創(chuàng )新文化和頂尖的AI研究人員,這些或許是其在自動(dòng)駕駛車(chē)輛和機器人領(lǐng)域實(shí)現跨越式發(fā)展的秘訣。


特斯拉在算力方面的提升

目前,特斯拉在內部的AI基礎設施非常有限,只有大約4000個(gè)V100顯卡和16000個(gè)A100顯卡。與世界上其他大型科技公司相比,這個(gè)數字非常小,因為像微軟和Meta這樣的公司擁有超過(guò)10萬(wàn)個(gè)GPU,而且他們計劃在中短期內將這個(gè)數字翻倍。特斯拉AI基礎設施的薄弱部分是由于其內部訓練芯片“D1”的多次延誤。

然而,現在情況正在迅速改變。

特斯拉將在1.5年內大幅提升了其AI能力,預計增長(cháng)規模超過(guò)10倍。其中一個(gè)原因是提升自身能力,但也有一個(gè)很重要的原因是為了X.AI公司的發(fā)展。Semianalysis按季度進(jìn)行單位估算,深入探討特斯拉的AI產(chǎn)能、H100和Dojo芯片的情況,以及特斯拉因其模型架構、訓練基礎設施和邊緣推理(包括HW 4.0芯片)產(chǎn)生的獨特需求,而且還討論了X.AI公司的發(fā)展現狀,X.AI是OpenAI的競爭對手,而馬斯克從OpenAI挖走了許多著(zhù)名的工程師。

D1訓練芯片的發(fā)展曲折又艱辛,從設計到供電方面都遇到了問(wèn)題,然而現在特斯拉聲稱(chēng)已經(jīng)準備好公開(kāi)展示該芯片,并開(kāi)始進(jìn)行批量生產(chǎn)。文章認為,自2016年以來(lái),特斯拉一直在為其汽車(chē)設計內部的AI芯片,并在2018年開(kāi)始為數據中心應用設計芯片。

在芯片發(fā)布之前,Semianalysis獨家披露了他們所使用的特殊封裝技術(shù),這項技術(shù)被稱(chēng)為InFO SoW,一個(gè)與晶圓大小相當的扇出封裝技術(shù)。原則上類(lèi)似于Cerebras公司的做法,但優(yōu)點(diǎn)是可以進(jìn)行可靠的芯片測試。這是特斯拉架構中最獨特和有趣的方面,因為25個(gè)芯片被集成到這個(gè)InFO-SoW中,并且沒(méi)有直接連接存儲器。

Semianalysis還在2021年更詳細地討論了特斯拉芯片架構的優(yōu)缺點(diǎn)。當時(shí)是因為芯片上的內存容量不足,特斯拉不得不制作另一款芯片。

特斯拉本應在2022年多次擴大產(chǎn)能,但由于芯片材料和系統問(wèn)題,始終未能實(shí)現這一目標?,F在已經(jīng)是2023年年中,產(chǎn)能終于開(kāi)始提升。這種芯片架構非常適合特斯拉獨特的應用場(chǎng)景,但值得注意的是,它并不適用于對內存帶寬限制嚴重的LLM(低延遲內存)。

文章指出,特斯拉之所以獨特,是因為他們必須專(zhuān)注于圖像網(wǎng)絡(luò )。因此,他們的架構差異很大。Semianalysis之前曾討論過(guò)深度學(xué)習推薦網(wǎng)絡(luò )和基于Transformer的語(yǔ)言模型需要非常不同的架構設計。圖像/視頻識別網(wǎng)絡(luò )還需要不同的計算、芯片內通信、芯片內存和芯片外存儲的組合。

在訓練過(guò)程中,這些卷積模型在GPU上的利用率非常低。隨著(zhù)英偉達下一代產(chǎn)品對Transformer模型進(jìn)行進(jìn)一步優(yōu)化,特斯拉對卷積模型的差異化、優(yōu)化架構的投資有望取得顯著(zhù)進(jìn)展,這些圖像網(wǎng)絡(luò )必須符合特斯拉推斷基礎設施的限制。

訓練芯片雖然是由臺積電制造的,但在特斯拉電動(dòng)汽車(chē)內運行人工智能推理的芯片被稱(chēng)為全自動(dòng)駕駛(FSD)芯片。特斯拉車(chē)輛上的模型非常有限,因為特斯拉堅信他們不需要在車(chē)輛中擁有巨大的性能來(lái)實(shí)現全自動(dòng)駕駛。此外,與Waymo和Cruise相比,特斯拉的成本限制更加嚴格,因為他們實(shí)際上發(fā)貨量很大。與此同時(shí),Alphabet Waymo和GM Cruise在開(kāi)發(fā)和早期測試階段使用的全尺寸GPU成本要高出10倍,他們正在考慮為他們的車(chē)輛制造更快(也更昂貴)的SoC。

特斯拉的FSD系列

第二代芯片從2023年2月開(kāi)始在車(chē)輛上進(jìn)行發(fā)貨,該芯片的設計與第一代非常相似。第一代芯片基于三星的14nm工藝,采用了三個(gè)四核集群的設計,總共有12個(gè)Arm Cortex-A72內核,運行頻率為2.2 GHz。然而,在第二代設計中,特斯拉將CPU核心數量增加到了五個(gè)四核集群,共20個(gè)Cortex-A72內核。

第二代FSD芯片最重要的部分是3個(gè)NPU核心。這三個(gè)核心每個(gè)都使用32 MiB的SRAM來(lái)存儲模型權重和激活數據。每個(gè)周期,從SRAM中讀取256字節的激活數據和128字節的權重數據傳遞給乘積累加運算(MAC)。MAC的設計是一個(gè)網(wǎng)格,每個(gè)NPU核心有一個(gè)96x96的網(wǎng)格,每個(gè)時(shí)鐘周期總共有9,216個(gè)MAC和18,432個(gè)操作。每個(gè)芯片上的3個(gè)NPU運行頻率為2.2 GHz,總計算能力達到121.651萬(wàn)億次運算每秒(TOPS)。

第二代FSD芯片擁有256GB的NVMe存儲和16GB的Micron GDDR6,其速度為14Gbps,并通過(guò)128位內存總線(xiàn)提供224GB/s的帶寬。后者變化最為顯著(zhù),因為帶寬相比上一代提高了約3.3倍。FLOPs(每秒浮點(diǎn)運算數)相對于帶寬的增加表明HW3芯片難以充分得到利用。每個(gè)HW 4.0中配備兩個(gè)FSD芯片。

HW4板性能增加是以額外的功耗為代價(jià)的,HW4板的空閑功耗約為HW3的兩倍。在峰值時(shí),Semianalysis預計功耗也會(huì )更高。外部HW4外殼電壓為16V,電流為10A,即使用功率為160W。

盡管HW4性能有所提升,但特斯拉仍希望使HW3也能實(shí)現全自動(dòng)駕駛,這很可能是因為他們不想對已購買(mǎi)全自動(dòng)駕駛功能的現有HW3用戶(hù)進(jìn)行改裝。

信息娛樂(lè )系統采用了AMD的GPU/APU。與上一代相比,該系統現在與FSD芯片位于同一板上,而不再使用獨立的擴展板。

HW4平臺支持12個(gè)攝像頭,其中一個(gè)用于冗余備份,因此實(shí)際使用的是11個(gè)攝像頭。在舊的配置中,前置攝像頭集線(xiàn)器使用了三個(gè)低分辨率的120萬(wàn)像素攝像頭。而新平臺則使用了兩個(gè)更高分辨率的500萬(wàn)像素攝像頭。

特斯拉目前不使用激光雷達傳感器或其他非攝像頭的方法。過(guò)去,他們確實(shí)使用了雷達傳感器,但在中期將其移除。這極大地降低了車(chē)輛的制造成本,特斯拉致力于優(yōu)化成本,并相信純攝像頭感知是實(shí)現自動(dòng)駕駛的可能途徑。然而,他們也指出,如果有可行的雷達傳感器可用,他們將將其與攝像頭系統整合。

在HW4平臺上,有一個(gè)內部設計的雷達,名為Phoenix。Phoenix將雷達系統與攝像頭系統結合起來(lái),旨在通過(guò)利用更多的數據打造更安全的車(chē)輛。Phoenix雷達使用76-77 GHz頻譜,峰值等效全向輻射功率(EIPR)為4.16 W,平均等效輻射功率(EIRP)為177.4 mW。它是一種非脈沖式汽車(chē)雷達系統,具有三種感知模式。雷達PCB包括一個(gè)用于傳感器融合的Xilinx Zynq XA7Z020 FPGA芯片。

特斯拉AI模型差異化

特斯拉旨在開(kāi)發(fā)基礎的AI模型,以為其自動(dòng)機器人和汽車(chē)提供動(dòng)力。這兩者都需要了解周?chē)h(huán)境并在周?chē)鷮Ш?,因此可以應用相同?lèi)型的AI模型。為未來(lái)的自動(dòng)平臺創(chuàng )建高效的模型需要大量的研究,具體來(lái)說(shuō)需要大量的數據。此外,這些模型的推理必須以極低的功耗和低延遲進(jìn)行,由于硬件限制,這極大減少了特斯拉能夠提供的最大模型尺寸。

在所有公司中,特斯拉擁有可用于深度學(xué)習神經(jīng)網(wǎng)絡(luò )訓練的最大數據集。每輛上路的特斯拉汽車(chē)都使用傳感器和圖像來(lái)捕捉數據,將這個(gè)數乘以上路特斯拉電動(dòng)汽車(chē)的數量,將得到一個(gè)龐大的數據集。特斯拉將其數據收集部分稱(chēng)為“車(chē)隊規模自動(dòng)標注”。每輛特斯拉電動(dòng)汽車(chē)都會(huì )拍攝一段45-60秒的密集傳感器數據記錄,包括視頻、慣性測量單元(IMU)數據、GPS、里程計等,并將其發(fā)送到特斯拉的訓練服務(wù)器上。

特斯拉的模型是通過(guò)分割、掩膜、深度、點(diǎn)匹配等任務(wù)進(jìn)行訓練的。由于在道路上擁有數百萬(wàn)輛電動(dòng)汽車(chē),特斯拉有大量經(jīng)過(guò)良好標記和記錄的數據源供選擇,這使得他們能夠在公司的Dojo超級計算機上進(jìn)行持續的訓練。

然而,特斯拉在數據使用方面的信念與其建立的可用基礎設施相矛盾,特斯拉只使用了收集到的數據中的一小部分。由于其嚴格的推理限制,特斯拉因過(guò)度訓練其模型以在給定的模型大小內實(shí)現最佳準確性而聞名。

過(guò)度訓練(over-training)小型模型導致完全自動(dòng)駕駛的性能出現瓶頸,并且無(wú)法利用收集到的所有數據。許多公司選擇盡可能進(jìn)行大規模訓練,但他們也使用更強大的汽車(chē)推理芯片。例如,英偉達計劃在2025年向汽車(chē)客戶(hù)交付具備2000 TeraFLOPS計算能力的DRIVE Thor芯片,這比特斯拉的新HW4芯片要高出15倍以上。此外,英偉達的架構對于其他模型類(lèi)型來(lái)說(shuō)更加靈活。


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 特斯拉 AI芯片

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>