六大門(mén)派,圍攻云端AI芯片光明頂
編輯 | 漠影
AI芯片的戰場(chǎng),明顯更熱鬧了。就在上周五,國際權威人工智能(AI)性能基準測試MLPerf公布了最新的數據中心及邊緣場(chǎng)景AI推理榜單結果,無(wú)論是參與評選的企業(yè)還是實(shí)際AI芯片表現,都比往屆多了不少看頭。
MLPerf數據中心推理榜單:
https://mlcommons.org/en/inference-datacenter-21/
MLPerf邊緣推理榜單:
https://mlcommons.org/en/inference-edge-21/
01.H100王者登場(chǎng),英偉達仍然稱(chēng)雄
▲英偉達H100性能比A100高出4.5倍(圖源:英偉達)
英偉達基于H100 GPU單芯片提交了兩個(gè)系統,一個(gè)系統配備AMD EPYC CPU作為主機處理器,另一個(gè)系統配備英特爾至強CPU。可以看到,雖然采用英偉達最新Hopper架構的H100 GPU這次只展示了單芯片的測試成績(jì),其性能已經(jīng)在多個(gè)情況下超過(guò)有2、4、8顆A100芯片的系統的性能。▲英偉達H100在數據中心場(chǎng)景所有工作負載都刷新性能記錄(圖源:英偉達)
特別是用在對更大規模、更高性能提出要求的自然語(yǔ)言處理BERT-Large模型上,H100的性能比A100和壁仞科技GPU超出一大截,這主要歸功于其Transformer Engine。H100 GPU預計在今年年底發(fā)布,后續還會(huì )參加MLPerf的訓練基準測試。此外,在邊緣計算方面,將英偉達Ampere架構和Arm CPU內核集成在一塊芯片的英偉達Orin,運行了所有MLPerf基準測試,是所有低功耗系統級芯片中贏(yíng)得測試最多的芯片。值得一提的是,相比今年4月在MLPerf上首次亮相的成績(jì),英偉達Orin芯片的邊緣AI推理能效進(jìn)一步提高了50%。▲在能效方面,Orin邊緣AI推理性能提升多達50%(圖源:英偉達)
從英偉達往屆在MLPerf提交的測試結果,可以看出AI軟件帶來(lái)的性能提升越來(lái)越顯著(zhù)。自2020年7月在MLPerf上首次亮相以來(lái),得益于NVIDIA AI軟件的不斷改進(jìn),A100的性能已經(jīng)提升6倍。目前,NVIDIA AI是唯一能在數據中心和邊緣計算中運行所有MLPerf推理工作負載和場(chǎng)景的平臺。通過(guò)軟硬協(xié)同優(yōu)化,英偉達GPU在數據中心及邊緣計算中實(shí)現AI推理加速的成績(jì)更加突出。02.壁仞科技通用GPU參戰ResNet和BERT模型性能超A100
▲壁仞科技BR104在BERT模型評選中同時(shí)拿下離線(xiàn)和在線(xiàn)模式的整機性能領(lǐng)先(圖源:壁仞科技)
從測試結果來(lái)看,在BERT模型的評選中,相較于英偉達提交的基于8張A100的機型,基于8張壁仞科技BR104的機型,性能達到了前者的1.58倍。▲壁仞BR104在ResNet-50和BERT模型評選中單卡性能超過(guò)A100
總體來(lái)看,壁仞科技8卡PCle解決方案的性能表現,估計會(huì )介乎英偉達8卡A100與8卡H100之間。除了壁仞科技自己提交的8卡機型外,知名服務(wù)器提供商浪潮信息還提交了一款搭載4張壁礪104板卡的服務(wù)器,這也是浪潮信息首次提交基于國產(chǎn)廠(chǎng)商芯片的服務(wù)器測試成績(jì)。在所有的4卡機型中,浪潮提交的服務(wù)器在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)兩個(gè)模型下,也奪得了全球第一。03.墨芯S30奪魁圖像分類(lèi)單卡算力95784 FPS遠超H100
▲墨芯人工智能S30計算卡
此次墨芯參加的是開(kāi)放優(yōu)化類(lèi)的測試。根據最新MLPerf推理榜單,墨芯S30計算卡以95784FPS的單卡算力,奪得ResNet-50模型算力第一,是H100的1.2倍、A100的2倍。在運行BERT-Large高精度模型(99.9%)方面,墨芯S30雖未戰勝H100,卻實(shí)現了高于A(yíng)100性能2倍的成績(jì),S30單卡算力達3837SPS。▲運行ResNet-50和BERT-Large模型時(shí),墨芯S30與A100、H100的對比(圖源:墨芯人工智能)
值得一提的是,墨芯S30采用的是12nm制程,而英偉達H100采用的是更先進(jìn)的4nm制程,能夠在制程工藝存在代際差的情況下追平兩大數據中心主流AI模型的性能表現,主要得益于墨芯自主研發(fā)的稀疏化算法及架構。MLPerf的測試要求非常嚴格,不僅考驗各產(chǎn)品算力,同時(shí)設置精度要求在99%以上,以考察AI推理精度的高要求對計算性能的影響,也就是說(shuō)參賽廠(chǎng)商不能以犧牲精度的方式換取算力提升。這亦證明了墨芯能做到在實(shí)現稀疏化計算的同時(shí)兼顧精度無(wú)損。04.高能效,高通云端AI芯片的王牌
▲高通Cloud AI 100
MLPerf最新披露的評測結果中,富士康、創(chuàng )通聯(lián)達(Thundercomm)、英業(yè)達(Inventec)、戴爾、HPE和聯(lián)想都提交了使用高通Cloud AI 100芯片的測試成績(jì)??梢钥闯?,高通的AI芯片已經(jīng)在被亞洲云服務(wù)器市場(chǎng)接納。高通Cloud AI 100有兩個(gè)版本,專(zhuān)業(yè)版(400 TOPS)或標準版(300 TOPS),都具有高能效的優(yōu)勢。在圖像處理方面,該芯片的每瓦性能比標準部件的NVIDIA Jetson Orin高1倍,在自然語(yǔ)言處理BERT-99模型方面的能效亦是略勝一籌。▲高通Cloud AI 100在ResNet-50及BERT-99模型測試中的能效比領(lǐng)先(圖源:高通)
在保持高能效的同時(shí),高通的AI芯片并沒(méi)有以犧牲高性能為代價(jià),一臺5卡服務(wù)器功耗75W,可實(shí)現的性能比2卡A100服務(wù)器高出近50%。而單臺2卡A100服務(wù)器的功耗高達300W。▲高通Cloud AI 100的每瓦性能表現(圖源:高通)
面向邊緣計算,高通Cloud AI 100在圖形處理方面展現出的高能效已經(jīng)非常有競爭力,不過(guò)大型數據中心對芯片的通用性會(huì )有更高要求,如果高通想要進(jìn)一步打入云端市場(chǎng),可能得在下一代云邊AI芯片的設計上擴展對推薦引擎等更多主流AI模型的支持。▲實(shí)現邊緣服務(wù)器高能效,不以犧牲高性能為代價(jià)(圖源:高通)
05.韓國首款AI芯片亮相對打英偉達入門(mén)級AI加速卡
▲Sapeon X220部分參數
其測試結果也很有意思。Sapeon X220搭載于Supermicro服務(wù)器上,在數據中心推理基準測試中的性能超過(guò)了英偉達去年年底發(fā)布的入門(mén)級AI加速卡A2 GPU。其中,X220-Compact的性能比A2高2.3倍,X220-Enterprise的性能比A2提升4.6倍。能效表現同樣不錯,在基于最大功耗的每瓦性能方面,X220-Compact的能效是A2的2.2倍,X220-Enterprise的能效是A2的2.0倍。▲Sapeon X220系列與英偉達A2的性能及能效對比(圖源:SAPEON)
值得一提的是,英偉達A2采用的是先進(jìn)的8nm制程,而Sapeon X220采用的是28nm成熟制程。據悉,Sapeon芯片已經(jīng)應用在智能音箱、智能視頻安全解決方案、基于A(yíng)I的媒體質(zhì)量?jì)?yōu)化解決方案等應用中。今年SK電訊還將AI芯片業(yè)務(wù)獨立出來(lái),成立了一家名為SAPEON的公司。SAPEON首席執行官Soojung Ryu透露說(shuō),未來(lái)該公司計劃拓展X220的各個(gè)應用領(lǐng)域,有信心在明年下半年用下一代芯片X330與競品拉開(kāi)差距,進(jìn)一步提高性能。06.英特爾預覽下一代服務(wù)器CPU阿里倚天710 CPU首參評
07.結語(yǔ):英偉達江湖地位穩固國產(chǎn)AI芯片新勢力發(fā)起沖鋒

芯東西
芯東西專(zhuān)注報道芯片、半導體產(chǎn)業(yè)創(chuàng )新,尤其是以芯片設計創(chuàng )新引領(lǐng)的計算新革命和國產(chǎn)替代浪潮;我們是一群追“芯”人,帶你一起遨游“芯”辰大海。
公眾號
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。