燧原科技推中國最大AI計算芯片!公布最新產(chǎn)品路線(xiàn)圖
作者 | 心緣
編輯 | 漠影
芯東西7月7日報道,在2021世界人工智能大會(huì )期間,上海燧原科技推出第二代云端AI訓練芯片邃思2.0及訓練產(chǎn)品云燧T20/T21,以及全新升級的馭算Topsrider 2.0軟件平臺。邃思2.0是迄今中國最大的AI計算芯片,采用日月光2.5D封裝的極限,在國內率先支持TF32精度,單精度張量TF32算力可達160TFLOPS。同時(shí),邃思2.0也是首個(gè)支持最先進(jìn)內存HBM2E的產(chǎn)品。
云燧T20/T21基于邃思2.0而打造,由8000多張第二代云燧訓練卡組成的云燧智算集群2.0,單精度最高算力達1.3EFLOPS,即130000TFLOPS。燧原科技成立于2018年3月,此前已相繼推出首款云端AI訓練芯片邃思、首款云端AI訓練加速卡云燧T10和AI推理加速卡云燧i10,以及配套的“馭算”軟件平臺。
成立至今,燧原科技連續獲得過(guò)5輪融資,累計融資額近32億元人民幣。其最新一筆融資為今年1月完成的18億人民幣C輪融資,由中信產(chǎn)業(yè)基金、中金資本旗下基金、春華資本領(lǐng)投。
公布最新五年產(chǎn)品路線(xiàn)圖
燧原科技創(chuàng )始人、COO張亞林公布了燧原產(chǎn)品定理:燧原的每一代產(chǎn)品必須比前一代在“平均業(yè)務(wù)”中每瓦性能提升超3倍,軟件后向兼容可靠。
現場(chǎng),張亞林還發(fā)布了燧原科技的最新路線(xiàn)圖。到2023年,燧原科技計劃打造3款云端訓練計算產(chǎn)品、3款云端推理計算產(chǎn)品,將性能功耗比提升至初代的14倍,并同步升級Matrix集群。
同一時(shí)期,馭算Topsrider軟件平臺從全棧模塊發(fā)展到訓推一體,繼而走向泛AI生態(tài)。
燧原科技創(chuàng )始人兼CEO趙立東分享道,下面這些落地場(chǎng)景將形成燧原科技今年的收入。
燧原研發(fā)團隊的主要成員均擁有15年以上的高端芯片及相關(guān)軟件生態(tài)系統開(kāi)發(fā)和量產(chǎn)經(jīng)驗,曾成功開(kāi)發(fā)并量產(chǎn)多顆大型芯片。截至今年5月,其團隊規模已經(jīng)超過(guò)500人,其中近90%為研發(fā)團隊,博士及碩士占比近70%。目前燧原已獲得52項專(zhuān)利,其中包括45項發(fā)明專(zhuān)利,同時(shí)有近30項專(zhuān)利正在申請中。這些專(zhuān)利內容涵蓋了芯片的運算單元、核心功能模塊、到封裝及系統集群,以及軟件的架構和優(yōu)化。超大規模智算集群,最高算力達1.3E
今天,燧原科技推出與友商合作打造的全新產(chǎn)品品牌云燧智算集群CloudBlazer Matrix 2.0,集合8192張云燧訓練卡,可實(shí)現最高1.3E(130000T)的單精度智能算力集群
“在全世界還沒(méi)有人能達到在單精度算力上用8000張卡實(shí)現超過(guò)1E的算力?!睆垇喠终f(shuō),這代表著(zhù)燧原科技正式用集群化產(chǎn)品登上中國智能計算和新基建算力的舞臺。同時(shí),云燧智算集群能驅動(dòng)綠色數字化,液冷PUE可降到1.5以下,大幅提升整個(gè)集群的能效。燧原與合作伙伴的聯(lián)合開(kāi)發(fā),一起構建超大規模的液冷智能數據中心,以響應國家“低碳算力”和“綠色一體化智能計算”的戰略方向。
國內最大AI芯片,五大特性解讀
燧原云燧智算集群2.0包括邃思DTU 2.0、云燧T20和T21訓練產(chǎn)品、新一代馭算軟件,能有效降低AI超算集群的整體復雜度和成本。其中,燧原科技第二代云端AI訓練芯片邃思DTU 2.0經(jīng)過(guò)了全新升級迭代,其計算能力、存儲和帶寬、互聯(lián)能力較第一代訓練產(chǎn)品有巨大提升,對超大規模的模型支持能力獲得顯著(zhù)增強。
1、封裝:中國最大的計算芯片張亞林介紹道,邃思2.0是中國最大尺寸的計算芯片,采用2.5D高級封裝技術(shù),突破了臺灣頂級封裝合作伙伴的封裝歷史極限,共整合9顆芯片,實(shí)現57.5mm x 57.5mm的封裝尺寸。
2、計算:TF32精度峰值算力達160TFLOPS邃思2.0進(jìn)行了大規模的架構升級,新一代全自研的GCU-CARA全域計算架構針對AI計算的特性進(jìn)行深度優(yōu)化,夯實(shí)了支持通用異構計算的基礎。該芯片支持全面的計算精度,涵蓋從FP32、TF32、FP16、BF16到INT8。張亞林說(shuō),這是中國首款支持單精度張量TF32數據精度的AI芯片,算力達160TFLOPS。在單精度FP32下,邃思2.0的峰值算力達到40 TFLOPS;同時(shí)該芯片支持定點(diǎn)整數精度,峰值算力達320TOPS。
3、數據:植入完全可編程的數據流數據被認為是AI在芯片處理上僅次于計算的部分,因為數據流的處理會(huì )直接決定計算的效率,燧原科技在整個(gè)芯片內部,植入了完全可編程的數據流。軟件指令驅動(dòng)的傳輸和數據計算,保證了數據的吞吐量,以及不同模型下的效率,完全支撐標量、向量和張量的高效數據處理,以及多地址廣播。4、存儲:率先支持HBM2E先進(jìn)存儲邃思2.0的中心是主芯片,在邊緣有4顆三星最先進(jìn)的存儲芯片HBM2E,高配支持64GB內存,最大帶寬達1.8TB/s。據悉,這是中國首款支持世界最先進(jìn)存儲HBM2E和單芯片64GB內存的產(chǎn)品。5、互聯(lián):高速互聯(lián)支撐算力擴展GCU-LARE全域互聯(lián)技術(shù)是燧原專(zhuān)為AI訓練集群研發(fā)的互聯(lián)技術(shù),提供雙向300 GB/s互聯(lián)帶寬,支持數千張云燧CloudBlazer加速卡互聯(lián),可實(shí)現優(yōu)異的線(xiàn)性加速比。
訓練卡算力比肩友商旗艦
云燧T20和云燧T21是基于邃思2.0打造的兩款AI訓練加速板卡。具體參數如下:
燧原科技還現場(chǎng)展示了T20的Benchmark,由圖可見(jiàn),云燧T20 TF32精度性能平均2.5倍于友商次旗艦。
在多類(lèi)模型測試中,云燧T20與友商旗艦性能幾乎不分伯仲。
軟件平臺同步升級:更高更快更通用
此次同步升級的馭算Topsrider,是燧原科技自主知識產(chǎn)權的計算及編程平臺。張亞林介紹道:“升級后的馭算軟件平臺更加便捷易用和客戶(hù)友好,燧原科技也可針對客戶(hù)的場(chǎng)景和業(yè)務(wù)模型提供軟件定制化服務(wù)和優(yōu)化,打造差異化解決方案?!?/span>
總體來(lái)說(shuō),馭算Topsrider2.0有三大特點(diǎn):更高性能算力、更便捷高效開(kāi)發(fā)、更靈活通用支持。升級的馭算平臺通過(guò)軟硬件協(xié)同架構設計,充分發(fā)揮邃思2.0的性能,并借助側寫(xiě)工具、自動(dòng)化調整等功能進(jìn)一步釋放硬件算力,同時(shí),其高效并行通信庫支持超大集群高線(xiàn)性加速比。該平臺對開(kāi)發(fā)者很友好。開(kāi)放升級的編程模型和可擴展的算子接口,為客戶(hù)模型的優(yōu)化提供了快捷的自定義算子開(kāi)發(fā)能力。馭算也提供完善編譯器和工具鏈支持、開(kāi)箱即用的圖形化整合開(kāi)發(fā)環(huán)境、動(dòng)態(tài)形狀自動(dòng)編譯和高性能運行支持。當前馭算Topsrider2.0基于算子泛化技術(shù)及圖優(yōu)化策略,可支持主流深度學(xué)習框架下的各類(lèi)模型訓練和ONNX模型轉換;設備虛擬化方面,最大可支持4個(gè)MID用戶(hù)。
公布“燎原”計劃,構建通用異構計算生態(tài)
面向生態(tài)建設,燧原科技創(chuàng )始人兼CEO趙立東宣布推出燧原異構計算生態(tài)“燎原”計劃,有原始創(chuàng )新、標準化、生態(tài)共建三大特征。這一計劃的目標是以AI為起點(diǎn),構建通用異構計算生態(tài),構建標準化技術(shù)體系,共建完整生態(tài)服務(wù)數字中國。
除了在深度學(xué)習計算、通用人工智能領(lǐng)域外,燎原計劃還會(huì )透過(guò)通用異構計算來(lái)涵蓋科學(xué)和工程計算,以及視覺(jué)計算相關(guān)的視頻編解碼和圖形渲染等。趙立東說(shuō),這個(gè)表列將根據市場(chǎng)發(fā)展和需求不斷增加。
“燧原已經(jīng)在原始創(chuàng )新的路上了,但是,所有的事情必須要腳踏實(shí)地?!壁w立東說(shuō),“這才能夠使得我們真正實(shí)現自主可控、原始創(chuàng )新,真正建立中國強大的人工智能算力。路雖遠,行則將至。事雖難,不做不成?!?/span>結語(yǔ):國產(chǎn)云端AI芯片走向落地新競賽
完全自研的軟硬件架構,使得燧原科技在知識產(chǎn)權和產(chǎn)品升級迭代上可以自主掌控方向和節奏。成立三年以來(lái),燧原科技嚴格遵循每年推出一款云端計算新品的節奏,完成了大芯片、軟件全棧、系統集群從產(chǎn)品定義、設計驗證、流片到產(chǎn)品的最終商業(yè)落地。這樣的研發(fā)速度和落地能力,在國內云端AI芯片創(chuàng )企中當屬前排。如今云端AI芯片賽道持續受到資本的青睞,更多的新興初創(chuàng )公司選擇涌入其中,賽道正變得愈發(fā)擁擠。與此同時(shí),隨著(zhù)更多云端AI芯片產(chǎn)品開(kāi)始走向落地,誰(shuí)能脫穎而出,將交給市場(chǎng)來(lái)說(shuō)話(huà)。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。