<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 編輯觀(guān)點(diǎn) > 英偉達最強AI芯片H200性能翻倍 AMD出師未捷身先死?

英偉達最強AI芯片H200性能翻倍 AMD出師未捷身先死?

作者:陳玲麗 時(shí)間:2023-11-28 來(lái)源:電子產(chǎn)品世界 收藏

11月13日,推出新一代旗艦,是在目前市場(chǎng)上最強H100的基礎上進(jìn)行了大升級。擁有141GB的內存幾乎是H100最高80GB內存的2倍,4.8TB/s的帶寬也顯著(zhù)高于H100的3.35TB/s。

本文引用地址:http://dyxdggzs.com/article/202311/453385.htm

在推理速度上幾乎達到了H100的兩倍,表示根據使用Meta的70B大模型Llama 2進(jìn)行測試,H200的輸出速度幾乎是H100的兩倍。根據官方發(fā)布的圖片,H200在大模型Llama 2、GPT-3.5的輸出速度上分別是H100的1.9倍和1.6倍,在高性能計算HPC方面的速度更是達到了雙核x86 CPU的110倍。

640.jpeg

因為使用基于與H100相同的Hopper架構,H200將具有H100的一切功能,例如可以用來(lái)加速基于Transformer架構搭建的深度學(xué)習模型的Transformer Engine功能。這意味著(zhù)那些已經(jīng)在使用H100進(jìn)行訓練的公司無(wú)需更改他們的服務(wù)器系統或軟件即可適應H200。

卷內存?H200最大升級HBM3

H200最大的變化就是內存 —— 首次搭載“世界上最快的內存”HBM3e,在性能上得到了直接提升,速度更快、容量更大,使其更適用于大型語(yǔ)言模型。

什么是HBM?

由于處理器與存儲器的工藝、封裝、需求的不同,過(guò)去20年中二者之間的性能差距越來(lái)越大,硬件的峰值計算能力增加了90000倍,但是內存/硬件互連帶寬卻只是提高了30倍。當存儲的性能跟不上處理器時(shí),對指令和數據搬運(寫(xiě)入和讀出)的時(shí)間是處理器運算所消耗時(shí)間的幾十倍乃至幾百倍,內存帶寬就是處理器可以從內存讀取數據或將數據存儲到內存的速率??梢韵胂笠幌?,數據傳輸就像處在一個(gè)巨大的漏斗之中,不管處理器灌進(jìn)去多少,存儲器都只能“細水長(cháng)流”。

GDDR采用傳統方法是將標準PCB和測試的DRAMs與SoC連接在一起,以較窄的通道提供更高的數據速率,進(jìn)而實(shí)現必要的吞吐量,具有一定的帶寬和良好的能耗效率。而隨著(zhù)AI等新需求的出現以及風(fēng)靡,為了讓數據傳輸更快,對帶寬的要求更高了,GDDR開(kāi)始不夠用了。按照GDDR現有的模式很難有突破性的帶寬進(jìn)展,于是,HBM出現了。

HBM其實(shí)就是將DDR堆疊在一起后和GPU封裝在一起,實(shí)現大容量、高位寬的DDR組合陣列。超高的帶寬讓HBM成為了高性能GPU的核心組件,讓更大的模型、更多的參數留在離核心計算更近的地方,從而減少內存和存儲解決方案帶來(lái)的延遲。自從去年ChatGPT出現以來(lái),HBM作為AI服務(wù)器的“標配”,更是開(kāi)始狠刷存在感。

640.png

3D堆疊技術(shù)的出現才讓HBM能夠實(shí)現這樣的布局:將DRAM裸片像摩天大樓一樣垂直堆疊,并通過(guò)硅通孔(ThroughSiliconVia,簡(jiǎn)稱(chēng)“TSV”)技術(shù)將“每層樓”連接在一起,貫通所有芯片層的柱狀通道傳輸信號、指令、電流,以增加吞吐量并克服單一封裝內帶寬的限制。采用3D堆疊技術(shù)之后,其直接結果就是接口變得更寬,其下方互聯(lián)的觸點(diǎn)數量遠遠多于DDR內存連接到CPU的線(xiàn)路數量。

640-2.jpeg

不過(guò),這也意味著(zhù)更高的成本,在沒(méi)有考慮封測成本的情況下,HBM的成本是GDDR的三倍左右。HBM發(fā)展制約因素正是高成本,一些高級計算引擎上的HBM內存成本往往比芯片本身還要高,因此自然面臨很大的阻力。

“半代”升級?算力提升并不明顯

在同架構之下,H200的浮點(diǎn)運算速率基本上和H100相同,核心GPU運算數據與H100完全一致??陀^(guān)來(lái)說(shuō),H200相較H100在算力方面提升并不明顯,可能只算“半代”升級。然而,在大模型推理表現上,H200提升卻極其明顯。

640-2.png

H200、H100和A100的性能規格對比(來(lái)源:anandtech)

H200重點(diǎn)放在提升推理方面的能力,再次證明英偉達的刀法依舊精準。隨著(zhù)AI技術(shù)的不斷發(fā)展和應用,AI芯片市場(chǎng)的競爭越來(lái)越激烈,H200芯片的發(fā)布,進(jìn)一步鞏固了英偉達在A(yíng)I芯片市場(chǎng)的領(lǐng)先地位。英偉達只有通過(guò)不斷推出更高性能的AI芯片,增強市場(chǎng)競爭力,才能夠在市場(chǎng)競爭中持續保持領(lǐng)先地位。那么,為什么英偉達突然選擇卷起內存了呢?

緊隨其后:搶先推出Instinct MI300X

隨著(zhù)ChatGPT的橫空出世,全球掀起了AI大模型熱潮,以GPU為代表的算力芯片供不應求。在全球GPU主要廠(chǎng)商中,英偉達市場(chǎng)占有率高達86%,而僅次于英偉達的就是。雖然在GPU市場(chǎng)名列第二,但其產(chǎn)品主要應用于圖形處理、消費級產(chǎn)品等傳統GPU應用場(chǎng)景,在A(yíng)I和高性能計算領(lǐng)域始終沒(méi)有什么存在感。

大模型時(shí)代,AMD等來(lái)了一個(gè)翻身機遇。在今年6月,AMD專(zhuān)門(mén)針對AI大模型訓練需求,在英偉達之前搶先推出了大殺器 —— Instinct MI300。相比前代產(chǎn)品,MI300X擁有高達192GB的HBM3內存以及5.2TB/s帶寬。MI300X提供的HBM密度是英偉達H100的2.4倍,HBM帶寬是H100的1.6倍,意味著(zhù)在MI300X上可以訓練比H100更大的模型,單張加速卡可運行一個(gè)400億參數的模型。

640-3.png

其實(shí)早在2016年,AMD就推出Radeon Instinct系列產(chǎn)品線(xiàn),旨在加速深度學(xué)習、神經(jīng)網(wǎng)絡(luò )和高性能計算等方面應用。然而AMD顯然不夠“上心”,在之后的4年間時(shí)間里,Radeon Instinct系列雖然不斷更新,但卻始終與AMD的消費級顯卡Radeon公用基礎架構,在計算方面缺乏針對性和高效率,難以滿(mǎn)足AI訓練的需求。

直到2020年,AMD將AI芯片產(chǎn)品線(xiàn)更名為“Instinct”,并首次拋棄了以往的消費級顯卡架構,采用了專(zhuān)門(mén)設計的CNDA計算架構。在此之后,AMD連續更新了三代產(chǎn)品MI100、MI200以及最新發(fā)布的MI300。憑借全新的技術(shù)路線(xiàn),以及高性?xún)r(jià)比的市場(chǎng)策略,AMD才開(kāi)始在A(yíng)I訓練市場(chǎng)中有人問(wèn)津。

目前AMD正在搶抓英偉達缺席后的空白,試圖憑借空前強大的芯片新品和難得的產(chǎn)業(yè)機遇,攻入英偉達的腹地。為了保證不被超越,這也許就是H200突然卷起內存的原因吧。此前,AMD表示MI300正在今年第三季度向客戶(hù)提供樣品,產(chǎn)量將在第四季增加。如果AMD真的能夠在第四季度提高產(chǎn)量并成功推出MI300芯片,那么它有望迎來(lái)強勁的需求。因為英偉達H100芯片的供不應求,大公司需要“第二供應商”的戰略將為AMD提供機遇,AMD可以有效填補供需缺口,憑借可得性贏(yíng)得業(yè)務(wù)。

甲骨文公司就計劃采用雙源采購策略,即同時(shí)從英偉達和AMD兩家公司購買(mǎi)AI芯片。在明年,甲骨文公司將優(yōu)先考慮購買(mǎi)AMD的產(chǎn)品,這是因為英偉達因市場(chǎng)需求巨大而未能達到甲骨文公司預定的采購目標。在此前的發(fā)布會(huì )上蘇姿豐表現得十分有信心:“我們認為,數據中心人工智能加速器將以超過(guò)50%的復合年增長(cháng)率,從今年的300億美元左右增長(cháng)到2027年的1500億美元以上?!盡I300被寄予厚望,將成為該公司“有史以來(lái)最快達成10億美元銷(xiāo)售額的產(chǎn)品”。

從MI300的性能指標而言,AMD已經(jīng)幾乎具備了與英偉達叫板的能力,直到H200橫空出世。在未來(lái),AMD想要在如火如荼的AI技術(shù)市場(chǎng)中搶得一席之地,面前的壓力仍毋庸多言。至今AMD尚未公布MI300的官方定價(jià),市場(chǎng)預計為了增加與英偉達的競爭籌碼,AMD MI300或許不得不延續其在傳統GPU市場(chǎng)的性?xún)r(jià)比路線(xiàn)。

潛在的壟斷消失?CUDA生態(tài)壁壘很難打破

最關(guān)鍵的問(wèn)題在于英偉達能否為市場(chǎng)提供足夠的H200,或者它們是否會(huì )像H100一樣在供應量上受到限制,并沒(méi)有明確的答案??紤]到目前高性能GPU服務(wù)器仍然緊缺,在A(yíng)MD發(fā)布更便宜且性能不差的競品后,英偉達的壟斷還能維持多久?

英偉達在2006年推出的通用并行計算架構CUDA,借助CUDA提供的編程接口和工具集等,開(kāi)發(fā)者可以基于GPU芯片編程、運行復雜的AI算法等等。雖然H100的壟斷地位導致服務(wù)器間兼容性問(wèn)題,但英偉達在A(yíng)I領(lǐng)域樹(shù)立的最大優(yōu)勢還是從語(yǔ)言設計到開(kāi)發(fā)者工具這些構成的生態(tài)壁壘,周邊工具一旦被用戶(hù)所接受,客戶(hù)技術(shù)遷移的成本將會(huì )是難以想象的。

即使AMD MI300的官方性能指標相比英偉達H100體現出優(yōu)勢,后者的生態(tài)壁壘仍舊難以逾越,更別提H200展現出了更強的性能指標。這樣的背景下,AMD想要逆風(fēng)翻盤(pán),還是要著(zhù)力補上生態(tài)差距。2016年,AMD推出了對標英偉達CUDA的ROCm架構,但由于ROCm平臺起步晚,其對于GPU加速庫的支持沒(méi)有英偉達CUDA全面:CUDA的應用場(chǎng)景基本能夠覆蓋全場(chǎng)景,ROCm更多用于高性能計算領(lǐng)域,對AI的覆蓋稍顯不足。

至今,AMD ROCm平臺的工具鏈已經(jīng)相對完善,并且能夠兼容英偉達的CUDA平臺。此外,為了進(jìn)一步優(yōu)化軟件生態(tài),AMD還在2023年10月份官宣收購了AI軟件企業(yè)Nod.ai。

AMD高性?xún)r(jià)比的市場(chǎng)策略將是其在A(yíng)I領(lǐng)域的另一大優(yōu)勢。CNBC報告稱(chēng),上一代H100估計每顆售價(jià)在2.5萬(wàn)美元到4萬(wàn)美元之間,鑒于采用了HBM3e內存,H200的售價(jià)可能會(huì )更貴。另一方面從亮相開(kāi)始,H100就迎頭趕上了“百模大戰”的風(fēng)口,成為了被各方力量爭奪的寶貴算力資源,大模型產(chǎn)業(yè)疾速發(fā)展帶來(lái)了巨大的算力缺口:根據OpenAI數據, 模型計算量增長(cháng)速度遠超人工智能硬件算力增長(cháng)速度,兩者之間存在萬(wàn)倍差距。對于長(cháng)期在A(yíng)I領(lǐng)域缺乏存在感的AMD而言,它正迎來(lái)了最好時(shí)機。

640-3.jpeg

據了解,英偉達H200將于2024年第二季度開(kāi)始向全球客戶(hù)和云服務(wù)廠(chǎng)商供貨。英偉達還透露,下一代新架構Blackwell B100 GPU也將在2024年推出,性能已經(jīng)“望不到頭”。

英偉達官網(wǎng)顯示H200將為40多臺AI超級計算機提供支持。包括CoreWeave、亞馬遜AWS、谷歌云、微軟Azure、甲骨文云等公司將成為首批部署基于H200實(shí)例的云服務(wù)商;同時(shí),華碩、戴爾科技、惠普、聯(lián)想、Supermicro、緯創(chuàng )資通等系統集成商也會(huì )使用H200更新其現有系統。此外,在新的H200加持之下,GH200超級芯片也將為全球各地的超級計算中心提供總計約200 Exaflops的AI算力:在SC23大會(huì )上,多家頂級超算中心紛紛宣布,即將使用GH200系統構建自己的超級計算機;德國尤里希超級計算中心將在超算JUPITER中使用GH200超級芯片。

值得注意的是,如果沒(méi)有獲得出口許可證,H200將無(wú)法在中國市場(chǎng)銷(xiāo)售。原因是H200參數高于美國商務(wù)部10月17日公布的性能紅線(xiàn):多個(gè)數字處理單元的集成電路(用于數據中心)總處理性能為2400-4800,“性能密度”大于1.6且小于5.92。



關(guān)鍵詞: 英偉達 AI 芯片 H200 AMD

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>