<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 六大門(mén)派，圍攻云端AI芯片光明頂

六大門(mén)派，圍攻云端AI芯片光明頂

發(fā)布人：芯東西時(shí)間：2022-09-15 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

英偉達江湖地位穩固，國產(chǎn)AI芯片新勢力發(fā)起沖鋒。

作者 | ZeR0
編輯 | 漠影
AI芯片的戰場(chǎng)，明顯更熱鬧了。就在上周五，國際權威人工智能（AI）性能基準測試MLPerf公布了最新的數據中心及邊緣場(chǎng)景AI推理榜單結果，無(wú)論是參與評選的企業(yè)還是實(shí)際AI芯片表現，都比往屆多了不少看頭。

打頭陣的自然還是國際AI計算巨頭英偉達。這是英偉達（NVIDIA）第一次讓其今年剛發(fā)布的最新旗艦AI加速器H100 Tensor Core GPU提交成績(jì)，AI推理性能足足比上一代GPU高出4.5倍。高通則通過(guò)云端AI芯片Cloud AI 100的最新評測成績(jì)，證明其在高能效方面依然很能打。國內AI芯片企業(yè)也不示弱，這次壁仞科技、墨芯人工智能均首次“參戰”，并且戰績(jì)不俗，在部分模型的成績(jì)甚至超過(guò)了英偉達旗艦AI芯片A100和H100。壁仞科技共提交了數據中心場(chǎng)景ResNet和BERT 99.90%精度兩個(gè)模型的數據，同時(shí)包括Offline模式和Server模式，其離線(xiàn)模式8卡整機性能在BERT模型下達到英偉達8卡A100機型性能的1.58倍。墨芯的S30計算卡則在ResNet-50 95784 FPS的單卡算力奪得第一，達到英偉達H100的1.2倍、A100的2倍。還有韓國SK電訊在2020年11月推出的韓國首個(gè)AI芯片Sapeon X220，這次也通過(guò)參與測試展現出超過(guò)英偉達入門(mén)級AI加速卡A2性能的表現。不過(guò)，在今年6月訓練基準測試榜單中大秀高性能、高能效成績(jì)的谷歌TPU v4芯片，并沒(méi)有出現在此次推理榜單中。此外，英特爾、阿里也分別展示了僅基于其服務(wù)器CPU的系統在加速AI推理方面的性能表現。總的來(lái)說(shuō)，英偉達A100依然是橫掃各大測試成績(jì)的全能選手，還未上市的H100此次只是初露鋒芒，預計訓練性能的提升會(huì )更加“夸張”。國產(chǎn)AI芯片雖然只參加了ResNet、BERT等部分AI模型的評測，但單點(diǎn)戰績(jì)已經(jīng)能與英偉達旗艦計算產(chǎn)品比肩，展現出在跑特定模型時(shí)替代國際先進(jìn)產(chǎn)品的能力。

MLPerf數據中心推理榜單：

https://mlcommons.org/en/inference-datacenter-21/

MLPerf邊緣推理榜單：

https://mlcommons.org/en/inference-edge-21/

01.H100王者登場(chǎng)，英偉達仍然稱(chēng)雄

MLPerf基準測試按部署方式分為數據中心、邊緣、移動(dòng)、物聯(lián)網(wǎng)四類(lèi)場(chǎng)景，覆蓋六類(lèi)最具代表性的主流AI模型——圖像分類(lèi)（ResNet50）、自然語(yǔ)言處理（BERT）、語(yǔ)音識別（RNN-T）、目標物體檢測（RetinaNet）、醫學(xué)影像分割（3D-UNet）、智能推薦（DLRM）。其中，自然語(yǔ)言理解、醫學(xué)影像分割和智能推薦3個(gè)任務(wù)設置了99%與99.9%兩種精度要求，以考察提升AI推理精度要求對計算性能的影響。截至目前，英偉達是唯一一家在每輪MLPerf基準測試都參與所有主流算法測試的公司。英偉達A100在最新MLPerf AI推理測試榜單中依然大殺四方，在多類(lèi)模型榜單的性能表現均名列前茅。A100的繼任者H100首次在MLPerf亮相，連破多項世界記錄，其性能比A100高出4.5倍。

▲英偉達H100性能比A100高出4.5倍（圖源：英偉達）

英偉達基于H100 GPU單芯片提交了兩個(gè)系統，一個(gè)系統配備AMD EPYC CPU作為主機處理器，另一個(gè)系統配備英特爾至強CPU。可以看到，雖然采用英偉達最新Hopper架構的H100 GPU這次只展示了單芯片的測試成績(jì)，其性能已經(jīng)在多個(gè)情況下超過(guò)有2、4、8顆A100芯片的系統的性能。

▲英偉達H100在數據中心場(chǎng)景所有工作負載都刷新性能記錄（圖源：英偉達）

特別是用在對更大規模、更高性能提出要求的自然語(yǔ)言處理BERT-Large模型上，H100的性能比A100和壁仞科技GPU超出一大截，這主要歸功于其Transformer Engine。H100 GPU預計在今年年底發(fā)布，后續還會(huì )參加MLPerf的訓練基準測試。此外，在邊緣計算方面，將英偉達Ampere架構和Arm CPU內核集成在一塊芯片的英偉達Orin，運行了所有MLPerf基準測試，是所有低功耗系統級芯片中贏(yíng)得測試最多的芯片。值得一提的是，相比今年4月在MLPerf上首次亮相的成績(jì)，英偉達Orin芯片的邊緣AI推理能效進(jìn)一步提高了50%。

▲在能效方面，Orin邊緣AI推理性能提升多達50%（圖源：英偉達）

從英偉達往屆在MLPerf提交的測試結果，可以看出AI軟件帶來(lái)的性能提升越來(lái)越顯著(zhù)。自2020年7月在MLPerf上首次亮相以來(lái)，得益于NVIDIA AI軟件的不斷改進(jìn)，A100的性能已經(jīng)提升6倍。目前，NVIDIA AI是唯一能在數據中心和邊緣計算中運行所有MLPerf推理工作負載和場(chǎng)景的平臺。通過(guò)軟硬協(xié)同優(yōu)化，英偉達GPU在數據中心及邊緣計算中實(shí)現AI推理加速的成績(jì)更加突出。
02.壁仞科技通用GPU參戰ResNet和BERT模型性能超A100

壁仞科技今年8月剛發(fā)布的通用GPU芯片BR104，亦在MLPerf首次公開(kāi)亮相。MLPerf推理榜單分為Closed（固定任務(wù)）和Open（開(kāi)放優(yōu)化）兩類(lèi)，固定任務(wù)主要考察參測廠(chǎng)商的硬件系統和軟件優(yōu)化的能力，開(kāi)放優(yōu)化則著(zhù)重考察參測廠(chǎng)商的AI技術(shù)創(chuàng )新力。此次壁仞科技參加的是數據中心場(chǎng)景的固定任務(wù)評測，參評機型是搭載8張壁礪104-300W板卡的浪潮NF5468M6服務(wù)器，壁礪104板卡內置BR104芯片。壁仞科技提交了ResNet和BERT 99.9%精度模型的評測，同時(shí)包括Offline模式和Server模式。

Offline模式對應數據在本地可用的情況，比如在ResNet-50、BERT模型中，Offline模式更為重要；Server模式的數據則來(lái)自即時(shí)數據，數據以突發(fā)和間歇的方式在線(xiàn)送達，比如在DLRM中，Server模式更重要。據悉，壁仞科技這次只選擇這兩類(lèi)模型參評，主要考慮到兩者是目前壁仞科技的目標客戶(hù)應用最廣泛、最重要的模型，特別是BERT模型。

▲壁仞科技BR104在BERT模型評選中同時(shí)拿下離線(xiàn)和在線(xiàn)模式的整機性能領(lǐng)先（圖源：壁仞科技）

從測試結果來(lái)看，在BERT模型的評選中，相較于英偉達提交的基于8張A100的機型，基于8張壁仞科技BR104的機型，性能達到了前者的1.58倍。

▲壁仞BR104在ResNet-50和BERT模型評選中單卡性能超過(guò)A100

總體來(lái)看，壁仞科技8卡PCle解決方案的性能表現，估計會(huì )介乎英偉達8卡A100與8卡H100之間。除了壁仞科技自己提交的8卡機型外，知名服務(wù)器提供商浪潮信息還提交了一款搭載4張壁礪104板卡的服務(wù)器，這也是浪潮信息首次提交基于國產(chǎn)廠(chǎng)商芯片的服務(wù)器測試成績(jì)。在所有的4卡機型中，浪潮提交的服務(wù)器在ResNet50（Offline）和BERT（Offline & Server, 99.9%精度）兩個(gè)模型下，也奪得了全球第一。

對于一家初出茅廬、首次推出芯片的初創(chuàng )公司來(lái)說(shuō)，這個(gè)成績(jì)已經(jīng)非常驚人了。
03.墨芯S30奪魁圖像分類(lèi)單卡算力95784 FPS遠超H100

另一家中國云端AI芯片企業(yè)墨芯人工智能同樣首次參評MLPerf，而且在圖像分類(lèi)模型的推理任務(wù)上取得了超過(guò)英偉達H100的單卡算力表現。墨芯設計AI芯片英騰處理器（ANTOUM）時(shí)采用了自研雙稀疏化技術(shù)來(lái)實(shí)現底層的芯片架構創(chuàng )新，從而兼顧數據中心對高性能和高能效比的需求。在今年的GTIC 2022全球AI芯片峰會(huì )上，墨芯人工智能首次向業(yè)內全面發(fā)布其首批面向數據中心AI推理應用的高稀疏率計算卡S4、S10和S30，分別為單****、雙****和三****。

▲墨芯人工智能S30計算卡

此次墨芯參加的是開(kāi)放優(yōu)化類(lèi)的測試。根據最新MLPerf推理榜單，墨芯S30計算卡以95784FPS的單卡算力，奪得ResNet-50模型算力第一，是H100的1.2倍、A100的2倍。在運行BERT-Large高精度模型（99.9%）方面，墨芯S30雖未戰勝H100，卻實(shí)現了高于A(yíng)100性能2倍的成績(jì)，S30單卡算力達3837SPS。

▲運行ResNet-50和BERT-Large模型時(shí)，墨芯S30與A100、H100的對比（圖源：墨芯人工智能）

值得一提的是，墨芯S30采用的是12nm制程，而英偉達H100采用的是更先進(jìn)的4nm制程，能夠在制程工藝存在代際差的情況下追平兩大數據中心主流AI模型的性能表現，主要得益于墨芯自主研發(fā)的稀疏化算法及架構。MLPerf的測試要求非常嚴格，不僅考驗各產(chǎn)品算力，同時(shí)設置精度要求在99%以上，以考察AI推理精度的高要求對計算性能的影響，也就是說(shuō)參賽廠(chǎng)商不能以犧牲精度的方式換取算力提升。這亦證明了墨芯能做到在實(shí)現稀疏化計算的同時(shí)兼顧精度無(wú)損。
04.高能效，高通云端AI芯片的王牌

高通早在2019年就發(fā)布的首款云端AI芯片Cloud AI 100，繼續堅挺地參評MLPerf，與一眾新AI加速器同場(chǎng)競技。從測試成績(jì)來(lái)看，單論在圖像處理上的高能效，采用7nm制程的高通Cloud AI 100芯片依然可以笑傲江湖。

▲高通Cloud AI 100

MLPerf最新披露的評測結果中，富士康、創(chuàng )通聯(lián)達（Thundercomm）、英業(yè)達（Inventec）、戴爾、HPE和聯(lián)想都提交了使用高通Cloud AI 100芯片的測試成績(jì)?？梢钥闯?，高通的AI芯片已經(jīng)在被亞洲云服務(wù)器市場(chǎng)接納。高通Cloud AI 100有兩個(gè)版本，專(zhuān)業(yè)版（400 TOPS）或標準版（300 TOPS），都具有高能效的優(yōu)勢。在圖像處理方面，該芯片的每瓦性能比標準部件的NVIDIA Jetson Orin高1倍，在自然語(yǔ)言處理BERT-99模型方面的能效亦是略勝一籌。

▲高通Cloud AI 100在ResNet-50及BERT-99模型測試中的能效比領(lǐng)先（圖源：高通）

在保持高能效的同時(shí)，高通的AI芯片并沒(méi)有以犧牲高性能為代價(jià)，一臺5卡服務(wù)器功耗75W，可實(shí)現的性能比2卡A100服務(wù)器高出近50%。而單臺2卡A100服務(wù)器的功耗高達300W。

▲高通Cloud AI 100的每瓦性能表現（圖源：高通）

面向邊緣計算，高通Cloud AI 100在圖形處理方面展現出的高能效已經(jīng)非常有競爭力，不過(guò)大型數據中心對芯片的通用性會(huì )有更高要求，如果高通想要進(jìn)一步打入云端市場(chǎng)，可能得在下一代云邊AI芯片的設計上擴展對推薦引擎等更多主流AI模型的支持。

▲實(shí)現邊緣服務(wù)器高能效，不以犧牲高性能為代價(jià)（圖源：高通）

05.韓國首款AI芯片亮相對打英偉達入門(mén)級AI加速卡

這次MLPerf榜單中，我們還看到了在A(yíng)I芯片領(lǐng)域相對缺乏存在感的韓國企業(yè)的身影。Sapeon X220是韓國知名科技企業(yè)SK電訊自主研發(fā)的AI芯片，也是韓國第一顆用于數據中心的非存儲類(lèi)商用芯片，能夠高速、低功耗地執行AI服務(wù)所需的大規模計算。

▲Sapeon X220部分參數

其測試結果也很有意思。Sapeon X220搭載于Supermicro服務(wù)器上，在數據中心推理基準測試中的性能超過(guò)了英偉達去年年底發(fā)布的入門(mén)級AI加速卡A2 GPU。其中，X220-Compact的性能比A2高2.3倍，X220-Enterprise的性能比A2提升4.6倍。能效表現同樣不錯，在基于最大功耗的每瓦性能方面，X220-Compact的能效是A2的2.2倍，X220-Enterprise的能效是A2的2.0倍。

▲Sapeon X220系列與英偉達A2的性能及能效對比（圖源：SAPEON）

值得一提的是，英偉達A2采用的是先進(jìn)的8nm制程，而Sapeon X220采用的是28nm成熟制程。據悉，Sapeon芯片已經(jīng)應用在智能音箱、智能視頻安全解決方案、基于A(yíng)I的媒體質(zhì)量?jì)?yōu)化解決方案等應用中。今年SK電訊還將AI芯片業(yè)務(wù)獨立出來(lái)，成立了一家名為SAPEON的公司。SAPEON首席執行官Soojung Ryu透露說(shuō)，未來(lái)該公司計劃拓展X220的各個(gè)應用領(lǐng)域，有信心在明年下半年用下一代芯片X330與競品拉開(kāi)差距，進(jìn)一步提高性能。
06.英特爾預覽下一代服務(wù)器CPU阿里倚天710 CPU首參評

盡管云端AI推理芯片正呈百家爭鳴之勢，但截至目前，服務(wù)器CPU仍是AI推理市場(chǎng)的主導者。在此次MLPerf榜單中，我們看到僅搭載英特爾至強、阿里自研CPU倚天710的系統參評，這些系統沒(méi)有搭載任何AI加速器，可以較真實(shí)的反映出這些服務(wù)器CPU的AI推理加速能力。在固定任務(wù)榜單中，英特爾提交了一個(gè)預覽版Sapphire Rapids 2-socket搭配PyTorch軟件的系統，推理性能雖被H100“虐殺”，但已經(jīng)足夠打敗A2。畢竟這是一款服務(wù)器CPU，AI推理加速能力只是它的加分項，這樣看來(lái)英特爾至強CPU的加速能力已經(jīng)足夠應對常規的AI推理任務(wù)需求。

在開(kāi)放優(yōu)化類(lèi)榜單中，一家名為NeuralMagic的初創(chuàng )公司通過(guò)提交僅有英特爾至強CPU的系統，展示了其基于剪枝技術(shù)實(shí)現更精細的軟件，用更少的算力就能實(shí)現與其他軟件同等的性能。

阿里巴巴亦首次展示了整個(gè)集群作為單機運行的結果，在總吞吐量上超過(guò)其他結果。其自研倚天710 CPU芯片首次出現在MLPerf榜單中。

另外從各廠(chǎng)商參評這次MLPerf的系統配置，我們可以看到，AMD EPYC服務(wù)器CPU在數據中心推理應用中的存在感越來(lái)越高，大有與英特爾至強并駕齊驅的勢頭。
07.結語(yǔ)：英偉達江湖地位穩固國產(chǎn)AI芯片新勢力發(fā)起沖鋒

總的來(lái)看，英偉達繼續穩定發(fā)揮，霸榜MLPerf推理基準測試，是毫無(wú)爭議的大贏(yíng)家。雖說(shuō)部分單點(diǎn)性能成績(jì)被其他競品趕超，但若論通用性，英偉達A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。目前英偉達還沒(méi)有提交H100的推理能效測試數據，以及其在訓練方面的性能表現，等這些成績(jì)出來(lái)，H100預計會(huì )風(fēng)頭更盛。國產(chǎn)AI芯片企業(yè)也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測試后，壁仞科技、墨芯也分別通過(guò)第三方權威AI基準測試平臺展示出其AI芯片的實(shí)測性能實(shí)力。從這次開(kāi)放優(yōu)化類(lèi)榜單展示的性能成績(jì)，我們看到稀疏性計算已經(jīng)成數據中心AI推理的一個(gè)熱門(mén)趨勢，我們期待接下來(lái)這類(lèi)具有創(chuàng )新力的技術(shù)能進(jìn)入固定任務(wù)榜單，通過(guò)更精細、更公平地比較系統實(shí)力，進(jìn)一步驗證其落地價(jià)值。隨著(zhù)參評機構、系統規模、系統配置的增加和走向多元化，MLPerf基準測試正變得越來(lái)越復雜。這些歷屆的榜單結果，也能反映出全球AI芯片的技術(shù)及產(chǎn)業(yè)格局之變遷。

芯東西

芯東西專(zhuān)注報道芯片、半導體產(chǎn)業(yè)創(chuàng )新，尤其是以芯片設計創(chuàng )新引領(lǐng)的計算新革命和國產(chǎn)替代浪潮；我們是一群追“芯”人，帶你一起遨游“芯”辰大海。

680篇原創(chuàng )內容

公眾號

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 芯片光明

相關(guān)推薦

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>