英偉達的中國版 A800 GPU 性能揭曉
去年 10 月,美國商務(wù)部對向中國供應芯片實(shí)施了全面限制,此后拜登 (Joe Biden) 政府已暗示可能實(shí)施進(jìn)一步制裁。
本文引用地址:http://dyxdggzs.com/article/202305/446345.htm制裁導致中國企業(yè)與 AI 開(kāi)發(fā)行業(yè)內最受歡迎的芯片英偉達 A100 無(wú)緣,今年 3 月份發(fā)布的下一代版本 H100 也是如此,后者提供更強大算力。
Nvidia A800 計算 GPU 是為中國市場(chǎng)制造的。根據 MyDrivers 的說(shuō)法,A800 的運行速度是 A100 GPU 的 70%,同時(shí)符合嚴格的美國出口標準,該標準限制了 Nvidia 可以銷(xiāo)售的處理能力。
Nvidia 的 A100 推出已經(jīng)三年了,它為 HPC 提供 9.7 FP64/19.5 FP64 Tensor TFLOPS,為 AI 工作負載提供高達 624 BF16/FP16 TFLOPS(具有稀疏性)。即使減少了 30% 左右,這些數字看起來(lái)仍然令人生畏:6.8 FP64/13.7 FP64 Tensor TFLOPS 以及 437 BF16/FP16(具有稀疏性)。
盡管像 MyDrivers 所說(shuō)的那樣「閹割」(性能上限),但 Nvidia 的 A800 在計算能力方面與成熟的中國壁仞科技的 BR104 和 BR100 計算 GPU 完全不相上下。同時(shí),Nvidia 的計算 GPU 及其 CUDA 架構得到其客戶(hù)運行的應用程序的廣泛支持,而壁仞科技的處理器尚未被采用。由于最新規定,甚至壁仞科技也無(wú)法將其成熟的計算 GPU 運送到中國。
美國于 2021 年 10 月實(shí)施的出口規則禁止向中國出口允許在 41,600 立方英尺(1,178 立方米)或更小空間內性能超過(guò) 100 FP64 PetaFLOPS 或 200 FP32 PetaFLOPS 的超級計算機的美國技術(shù)。雖然出口限制并未具體限制出售給中國實(shí)體的每個(gè)計算 GPU 的性能,但它們限制了它們的吞吐量和可擴展性。
新規定生效后,英偉達無(wú)法在沒(méi)有出口許可證的情況下向中國客戶(hù)銷(xiāo)售其超高端 A100 和 H100 計算 GPU,而出口許可證很難獲得。為了滿(mǎn)足中國超大規模用戶(hù)對性能的需求,該公司推出了其 A100 GPU 的精簡(jiǎn)版 A800。到目前為止,還不清楚這款 GPU 的性能如何。
隨著(zhù)人工智能在消費者和企業(yè)中的使用越來(lái)越多,能夠處理適當工作負載的高性能硬件正在蓬勃發(fā)展。Nvidia 是 AI 大趨勢的主要受益者之一,這就是為什么其 GPU 的需求如此之高,以至于即使是精簡(jiǎn)版 A800 在中國也已售罄。
壁仞科技的 BR100 將采用 OAM 外形,功耗高達 550W。該芯片支持該公司專(zhuān)有的 8 路 Blink 技術(shù),允許每個(gè)系統安裝多達八個(gè) BR100 GPU。相比之下,300W BR104 將采用 FHFL 雙寬 PCIe 卡外形并支持多達 3 路多 GPU 配置。據 EETrend 報道,這兩款芯片都使用 PCIe 5.0 x16 接口,頂部帶有用于加速器的 CXL 協(xié)議。
壁仞科技表示,其兩款芯片均采用臺積電的 7nm 級制造工藝制造(未詳細說(shuō)明是使用 N7、N7+ 還是 N7P)。更大的 BR100 包含 770 億個(gè)晶體管,超過(guò)了同樣使用臺積電 N7 節點(diǎn)之一制造的 Nvidia A100 的 542 億個(gè)。該公司還表示,為了克服臺積電光罩尺寸的限制,它必須使用小芯片設計和代工廠(chǎng)的 CoWoS 2.5D 技術(shù),這是完全合乎邏輯的,因為 Nvidia 的 A100 接近光罩尺寸,而 BR100 應該是均勻的更大,因為它的晶體管數量更多。
鑒于規格,我們可以推測 BR100 基本上使用兩個(gè) BR104,盡管開(kāi)發(fā)人員尚未正式證實(shí)這一點(diǎn)。
為了將其 BR100 OAM 加速器商業(yè)化,壁仞科技與 Inspur 合作開(kāi)發(fā)了一款 8 路 AI 服務(wù)器,該服務(wù)器將于 2022 年第四季度開(kāi)始提供樣品。百度和中國移動(dòng)將成為首批使用壁仞科技計算 GPU 的客戶(hù)。
新加坡國立大學(xué) (National University of Singapore) 教授尤洋表示,許多中國公司現在正在研究組合三、四塊性能相對較差的芯片,包括 A800 和 H800,來(lái)替代英偉達最先進(jìn)的處理器。尤洋運營(yíng)著(zhù) AI 基礎設施公司 HPC-AI Tech。
尤洋說(shuō),這正促使一些公司加速開(kāi)發(fā)技術(shù),使用不同類(lèi)型的芯片來(lái)訓練大規模 AI 模型。此前這一研究領(lǐng)域在硬件資源有限、渴望降低成本的中國公司中已經(jīng)很普遍。論文顯示,阿里巴巴、百度和華為已在尋求使用 A100、老一代英偉達芯片 V100 和 P100 以及華為昇騰芯片的各種組合。
AI 專(zhuān)家說(shuō),相比之下,同時(shí)使用多種類(lèi)型芯片的情況在美國公司中很少見(jiàn),因為要讓不同類(lèi)型芯片可靠地協(xié)同工作存在技術(shù)挑戰。Meta 的 Zhang 說(shuō),這是萬(wàn)不得已的最后手段。
與此同時(shí),中國公司也正在研究使用各種軟件技術(shù)來(lái)降低訓練大規模 AI 模型的計算強度,這種方法已在全球范圍內加速推廣,包括在美國公司中。不過(guò),論文顯示,與美國公司不同,中國公司在結合使用多種軟件技術(shù)方面更加積極主動(dòng)。
雖然其中許多方法在全球研究界仍處于不斷完善中、難以實(shí)施,但中國研究人員已取得了一些成功。
在今年 3 月的一篇論文中,華為研究人員展示了他們如何利用這種技術(shù),只使用該公司的昇騰芯片而不是英偉達的芯片,來(lái)訓練其最新一代大語(yǔ)言模型。研究人員在論文中寫(xiě)道,盡管存在一些缺點(diǎn),但這個(gè)名為盤(pán)古的大語(yǔ)言模型在處理閱讀理解和語(yǔ)法挑戰等一些中文任務(wù)上都具有最先進(jìn)性能。
評論