陳巍談芯:最新發(fā)布的壁仞GPU BR100參數深度對比和優(yōu)勢分析
從專(zhuān)業(yè)視角來(lái)看BR100的技術(shù)亮點(diǎn),包括算力、能效比、多GPU互連、多實(shí)例GPU。架構上做了優(yōu)化,特別是做了近存計算/存算一體優(yōu)化,芯片可圈可點(diǎn),專(zhuān)利壁壘和生態(tài)上的挑戰才剛剛開(kāi)始。
本文引用地址:http://dyxdggzs.com/article/202209/437903.htm清晰性能對比表在文末
作者: 陳巍 博士 存算一體/GPU架構和AI專(zhuān)家,高級職稱(chēng)。曾任AI企業(yè)首席科學(xué)家、國內首個(gè)3D NAND設計團隊負責人。
無(wú)利益相關(guān),歸納一下BR100已公開(kāi)的可能弱項和亮點(diǎn)。
1,可能的弱項
(這里僅僅說(shuō)可能,因為具體技術(shù)細節還需要由壁仞公開(kāi))
1)對于通用計算生態(tài)的支持有待觀(guān)察
畢竟針對AI計算進(jìn)行了流處理器優(yōu)化,因此有可能犧牲部分通用計算能力來(lái)強化與AI相關(guān)的矩陣計算。這種優(yōu)化是合理的但也可能導致客戶(hù)量減少。以致于有業(yè)內人士將之形容為“大號的AI芯片”或者“昇騰的友商”??梢哉f(shuō)看起來(lái)是介于傳統GPGPU和AI芯片之間的一個(gè)形態(tài),技術(shù)混血。
而且GPU之所以能成為主流的AI計算芯片,與GPU對AI的通用計算支持關(guān)系很大。畢竟絕大部分場(chǎng)景,除了AI計算外,還有很多非AI計算。生態(tài)是任何GPU芯片的根本。一般來(lái)說(shuō)同樣算力的CUDA 核(通用流處理器的核心)面積和功耗是大于A(yíng)I核的,所以不排除壁仞團隊縮減通用流式處理器的硬件算子支持能力來(lái)提升AI算力的可能性。(當然這類(lèi)操作對AI專(zhuān)用場(chǎng)景的芯片也是合理的)
對于同為清華電子系的夏晶晶老師所說(shuō)的:”全盤(pán)放棄FP16,梭哈BF16,部分BF16無(wú)法收斂的網(wǎng)絡(luò )用低一檔性能的FP32“,尊重其觀(guān)點(diǎn),我暫時(shí)持保留意見(jiàn):)
就我在A(yíng)I企業(yè)擔任首席科學(xué)家期間,我看到的大部分Inference的model使用的是FP16定型,這也就意味著(zhù),對于大部分AI煉丹師和企業(yè),FP16目前是其能夠reuse其寶貴算法資產(chǎn)的底褲。如果未來(lái)遷移到其他AI芯片,也是以FP16為準。當然以后這個(gè)底褲可能會(huì )變?yōu)锽F16,但這一遷移過(guò)程可能意味著(zhù)已部署模型的重訓練,幾乎足以抵消算力提升帶來(lái)的優(yōu)勢,甚至意味著(zhù)AI企業(yè)管理層對煉丹師們的極大不解:”為什么都是支持16位浮點(diǎn),部署換到BR100就必須要重新訓練模型“。
我不清楚BR100的主架構師犧牲FP16這個(gè)業(yè)內使用最多的數據類(lèi)型的最關(guān)鍵考量是什么,希望不是為了討好投資人,畢竟這一舉措有可能因此失去大量的潛在客戶(hù)。
2)算力遠大于PCIe帶寬導致的算力利用率風(fēng)險
我們看到BR100的內部算力帶寬已經(jīng)明顯超過(guò)PCIe5/HBM2e的帶寬,所以絕大部分數據可能都要在GPU內流轉,這很可能導致在大部分情況下,GPU需要等待從PCIe和HBM2e傳回的數據。這樣再加上較大的片上SRAM,可能會(huì )導致有效算力的性?xún)r(jià)比稍低。因此BLink互連對這類(lèi)大算力計算卡就變得尤為重要,通過(guò)互連來(lái)彌補數據帶寬的不足。
3)專(zhuān)利風(fēng)險
這也是國內GPU企業(yè)所要面臨的共同問(wèn)題。絕大部分的優(yōu)化,包括架構,都是北美和國內那些AI芯片企業(yè)已經(jīng)使用過(guò)的技術(shù)。當然,這些技術(shù)應用在GPU中,還是要做很多努力和創(chuàng )新的。但這也意味著(zhù),如果真的能跟NV抗衡,很可能受到北美的專(zhuān)利攻擊。
2,亮點(diǎn)梳理
祝賀壁仞團隊取得的突破。
歸納一下BR100已公開(kāi)的技術(shù)亮點(diǎn)(1-5):
1)標稱(chēng)算力突破。使用TSMC N7工藝達到了NVIDIA 使用更先進(jìn)的N4工藝的標稱(chēng)算力。這應是 壁仞團隊技術(shù)+數據流并行+Chiplet技術(shù) 的勝利。因為采用了數據流架構,估計有效算力比率跟NVIDIA比不會(huì )差。
至于稀疏化嘛,相當于只算模型權重中大的一半,通常會(huì )導致精度下降,不如模型壓縮效果好,實(shí)際的云計算用的少。個(gè)人認為稀疏化的主要適用場(chǎng)景是對計算精度要求不高的端側場(chǎng)景,在云計算領(lǐng)域,稀疏化算力的實(shí)用意義不大。稀疏化算力做到非稀疏化算力的20倍都沒(méi)啥問(wèn)題,客戶(hù)不用標再高也沒(méi)意義,所以不必糾結于與稀疏化算力的比較。
2)能效比超過(guò)同工藝GPU A100 78.8%。非常不錯的成績(jì),這應是 壁仞團隊技術(shù)+近存計算技術(shù)的勝利。(近存計算是存算一體技術(shù)的一種)。
3)支持多GPU互連。這個(gè)是多GPU級聯(lián)計算大模型的關(guān)鍵。
4)支持多GPU實(shí)例。這是GPU上云虛擬化的關(guān)鍵。我和耿云川博士帶的團隊也完成了存算一體架構下多實(shí)例的設計,所以很清楚這一工作需要面對的挑戰。
5)支持國密安全規范。這是進(jìn)入國產(chǎn)自主可控計算領(lǐng)域的關(guān)鍵點(diǎn)之一。
下面,軟件生態(tài)的挑戰將是國產(chǎn)GPU面對的關(guān)鍵挑戰,祝各個(gè)國產(chǎn)GPU玩家都能取得好成績(jì)。
評論