<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 業(yè)界動(dòng)態(tài) > Habana Gaudi2性能穩超英偉達A100,助力實(shí)現高效AI訓練

Habana Gaudi2性能穩超英偉達A100,助力實(shí)現高效AI訓練

—— MLPerf測試結果驗證了Gaudi2在ResNet和BERT模型訓練時(shí)間上的優(yōu)勢
作者: 時(shí)間:2022-07-04 來(lái)源:電子產(chǎn)品世界 收藏

近日,英特爾宣布Habana? Gaudi?2深度學(xué)習處理器在MLPerf行業(yè)測試中表現優(yōu)于英偉達A100提交的AI訓練時(shí)間,結果突顯了5月在英特爾On產(chǎn)業(yè)創(chuàng )新峰會(huì )上發(fā)布的Gaudi2處理器在視覺(jué)(ResNet-50)和語(yǔ)言(BERT)模型上訓練時(shí)間的優(yōu)勢。

本文引用地址:http://dyxdggzs.com/article/202207/435893.htm

英特爾公司執行副總裁兼數據中心與人工智能事業(yè)部總經(jīng)理 Sandra Rivera表示:非常高興能與大家分享Gaudi 2MLPerf基準測試中的出色表現,我也為英特爾團隊在產(chǎn)品發(fā)布僅一個(gè)月取得的成就感到自豪。我們相信,在視覺(jué)和語(yǔ)言模型中提供領(lǐng)先的性能能夠為客戶(hù)帶來(lái)價(jià)值,有助于加速其AI深度學(xué)習解決方案。

借助Habana LabsGaudi平臺,英特爾數據中心團隊能夠專(zhuān)注于深度學(xué)習處理器技術(shù),讓數據科學(xué)家和機器學(xué)習工程師得以高效地進(jìn)行模型訓練,并通過(guò)簡(jiǎn)單的代碼實(shí)現新模型構建或現有模型遷移,提高工作效率的同時(shí)降低運營(yíng)成本。

Habana Gaudi2處理器在縮短訓練時(shí)間(TTT)方面相較第一代Gaudi有了顯著(zhù)提升。Habana Labs20225月提交的Gaudi2處理器在視覺(jué)和語(yǔ)言模型訓練時(shí)間上已超越英偉達A100-80GMLPerf測試結果。其中,針對視覺(jué)模型ResNet-50,Gaudi2處理器的TTT結果相較英偉達A100-80GB縮短了36%,相較戴爾提交的同樣針對ResNet-50BERT模型、采用8個(gè)加速器的A100-40GB服務(wù)器,Gaudi2TTT測試結果則縮短了45%。 

image.png

image.png

MLCommons發(fā)布的數據,20226月。https://mlcommons.org/en/training-normal-20/

 

相比于第一代Gaudi處理器,Gaudi2ResNet-50模型的訓練吞吐量提高了3倍,BERT模型的訓練吞吐量提高了4.7倍。這些歸因于制程工藝從16納米提升至7納米、Tensor處理器內核數量增加了三倍、增加GEMM引擎算力、封裝的高帶寬存儲容量提升了三倍、SRAM帶寬提升以及容量增加一倍。對于視覺(jué)處理模型的訓練,Gaudi2處理器集成了媒體處理引擎,能夠獨立完成包括AI訓練所需的數據增強和壓縮圖像的預處理。

兩代Gaudi處理器的性能都是在沒(méi)有特殊軟件操作的情況下通過(guò)Habana客戶(hù)開(kāi)箱即用的商業(yè)軟件棧實(shí)現的。

通過(guò)商用軟件所提供的開(kāi)箱即用性能,在Habana 8個(gè)GPU服務(wù)器與HLS-Gaudi2參考服務(wù)器上進(jìn)行測試比對。其中,訓練吞吐量來(lái)自于NGCHabana公共庫的TensorFlow docker,采用雙方推薦的最佳性能參數在混合精度訓練模式下進(jìn)行測量。值得注意的是,吞吐量是影響最終訓練時(shí)間收斂的關(guān)鍵因素。

 

image.png

圖形測試配置詳見(jiàn)說(shuō)明部分。

image.png

圖形測試配置見(jiàn)說(shuō)明部分。

 

除了Gaudi2MLPerf測試中的卓越表現,第一代Gaudi128個(gè)加速器和256個(gè)加速器的ResNet基準測試中展現了強大的性能和令人印象深刻的近線(xiàn)性擴展,支持客戶(hù)高效系統擴展。

Habana Labs首席運營(yíng)官Eitan Medina表示:我們最新的MLPerf測試結果證明Gaudi2在訓練性能方面顯著(zhù)優(yōu)勢。我們將持續深度學(xué)習訓練架構和軟件創(chuàng )新,打造最具性?xún)r(jià)比的AI訓練解決方案。

 

關(guān)于MLPerf基準測試MLPerf社區旨在設計公平且極具實(shí)際價(jià)值的基準測試,以公平地測量機器學(xué)習解決方案的準確度、速度和效率。該社區由來(lái)自學(xué)術(shù)界、研究實(shí)驗室和業(yè)界的AI領(lǐng)導者創(chuàng )建,他們確立基準并制定了一套嚴格的規則,以確保所有參與者均能夠公平公正地進(jìn)行性能比對?;谝惶酌鞔_的規則,以及能夠對端到端任務(wù)進(jìn)行公平比較,目前MLPerfAI行業(yè)唯一可靠的基準測試。此外,MLPerf基準測試結果要經(jīng)過(guò)為期一個(gè)月的同行評審,這將進(jìn)一步驗證報告結果。

 

說(shuō)明:

ResNet-50性能對比中使用的測試配置

A100-80GBHabana20224月在Azure實(shí)例Standard_ND96amsr_A100_v4上進(jìn)行測量,使用了一個(gè)A100-80GB,其中應用了NGCTF docker 22.03-tf2-py3optimizer=sgd, BS=256

A100-40GBHabana20224月在DGX-A100上進(jìn)行測量,使用了一個(gè)A100-40GB,其中應用了NGCTF docker 22.03-tf2-py3optimizer=sgd, BS=256

V100-32GB?Habana20224月在p3dn.24xlarge上進(jìn)行測量,使用了一個(gè)V100-32GB,其中應用了NGCTF docker 22.03-tf2-py3optimizer=sgd, BS=256

Gaudi2Habana20225月在Gaudi2-HLS系統上進(jìn)行測量,使用了一個(gè)Gaudi2,其中應用了SynapseAI TF docker 1.5.0BS=256

結果可能有所不同。

BERT性能對比中使用的測試配置

A100-80GBHabana20224月在Azure實(shí)例Standard_ND96amsr_A100_v4上進(jìn)行測試,使用了一個(gè)A100-80GB,包含NGCTF docker 22.03-tf2-py3Phase-1Seq len=128,BS=312,accu steps=256;Phase-2seq len=512,BS=40,accu steps=768 

A100-40GBHabana20224月在DGX-A100上進(jìn)行測試,使用了一個(gè)A100-40GB,包含NGCTF docker 22.03-tf2-py3Phase-1Seq len=128,BS=64,accu steps=1024;Phase-2seq len=512,BS=16,accu steps=2048

V100-32GBHabana20224月在上p3dn.24xlarge進(jìn)行測試,使用了一個(gè)V100-32GB,包含NGCTF docker 21.12-tf2-py3Phase-1Seq len=128,BS=64,accu steps=1024;Phase-2seq len=512,BS=8,accu steps=4096

Gaudi2Habana20225月在上Gaudi2-HLS進(jìn)行測試,使用了一個(gè)Gaudi2,包含SynapseAI TF docker 1.5.0Phase-1Seq len=128,BS=64,accu steps=1024;Phase-2seq len=512,BS=16,accu steps=2048

結果可能有所不同。

 

Habana Labs、Habana、Habana標識、GaudiSynapseAIHabana Labs的商標。




關(guān)鍵詞: Habana Gaudi2 AI訓練 Intel

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>