<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>
"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 英偉達新核彈GPU:4nm制程800億晶體管,20張即可承載全球互聯(lián)網(wǎng)流量,全新Hopper架構太炸了

英偉達新核彈GPU:4nm制程800億晶體管,20張即可承載全球互聯(lián)網(wǎng)流量,全新Hopper架構太炸了

發(fā)布人:傳感器技術(shù) 時(shí)間:2022-03-24 來(lái)源:工程師 發(fā)布文章

他來(lái)了他來(lái)了,老黃帶著(zhù)英偉達的最新一代GPU來(lái)了。

圖片

之前大家猜的5nm錯了,一手大驚喜,老黃直接上了臺積電4nm工藝。

新卡取名H100,采用全新Hopper架構,直接集成了800億個(gè)晶體管,比上一代A100足足多了260億個(gè)。

圖片

內核數量則飆到了前所未有的16896個(gè),達到上一代A100卡的2.5倍。

浮點(diǎn)計算和張量核心運算能力也隨之翻了至少3倍,比如FP32就達到了達到60萬(wàn)億次/秒。

特別注意的是,H100面向AI計算,針對Transformer搭載了優(yōu)化引擎,讓大模型訓練速度直接×6。

(可算知道5300億參數的威震天-圖靈背后的秘訣了。)

作為一款性能爆炸的全新GPU,不出意外,H100將與前輩V100、A100一樣成為AI從業(yè)者心心念念的大寶貝。

圖片

不過(guò)不得不提,它的功耗也爆炸了,達到了史無(wú)前例的700W,重回核彈級別。

關(guān)于自研的Grace CPU,這次大會(huì )也公布了更多細節。

沒(méi)想到,老黃從庫克那里學(xué)來(lái)一手1+1=2,兩塊CPU“粘”在一起組成了CPU超級芯片——Grace CPU Superchip。

Grace CPU采用最新Arm v9架構,兩塊總共擁有144個(gè)核心,擁有1TB/s的內存帶寬,比蘋(píng)果最新M1 Ultra的800GB/s還高出一截。

圖片

基于全新CPU、GPU基礎硬件,這次發(fā)布會(huì )也帶來(lái)了下一代企業(yè)級AI基礎設施DXG H100、全球最快AI超算Eos。

當然,英偉達作為真正的元宇宙先驅?zhuān)采俨涣薕mniverse上的新進(jìn)展。

下面具體來(lái)看看。

首款Hopper架構GPU,性能暴增

作為上一代GPU架構A100(安培架構)的繼承者,搭載了全新Hopper架構的H100有多突飛猛進(jìn)?

圖片

話(huà)不多說(shuō),先上參數:

老黃可謂下血本,先是直接采用了臺積電4nm工藝,晶體管一口氣集成了800億個(gè)。

要知道,上一代A100還只是7nm架構,這次發(fā)布會(huì )出來(lái)前,外界不少聲音猜測老黃會(huì )用5nm制程,結果一發(fā)布就給大家來(lái)了個(gè)大驚喜。

最恐怖的是CUDA核心直接飆升到了16896個(gè),直接達到了A100的近2.5倍。(要知道從V100到A100的時(shí)候,核心也不過(guò)增加那么一絲絲)

這次可不能感慨老黃刀法精準了。

再看浮點(diǎn)運算和INT8/FP16/TF32/FP64的張量運算,性能基本全部提升3倍不止,相比來(lái)看,前兩代的架構升級也顯得小打小鬧。

這也使得H100的熱功耗(TDP)直接達到了前所未有的700w,英偉達“核彈工廠(chǎng)”名副其實(shí)(手動(dòng)狗頭)。

圖片

話(huà)又說(shuō)回來(lái),這次H100也是首款支持PCle 5.0和HBM3的GPU,數據處理速度進(jìn)一步飛升——內存帶寬達到了3TB/s。

這是什么概念?

老黃在發(fā)布會(huì )上神秘一笑:只需要20個(gè)H100在手,全球互聯(lián)網(wǎng)流量我有。

整體參數細節究竟如何,與前代A100和V100對比一下就知道了:

圖片

圖源@anandtech

值得一提的是,Hopper架構的新GPU和英偉達CPU Grace名字組在一起,就成了著(zhù)名女性計算機科學(xué)家Grace Hopper的名字,這也被英偉達用于命名他們的超級芯片。

Grace Hopper發(fā)明了世界上第一個(gè)編譯器和COBOL語(yǔ)言,有“計算機軟件工程第一夫人”之稱(chēng)。

訓練3950億參數大模型僅1天

當然,Hopper的新特性遠不止體現在參數上。

這次,老黃特意在發(fā)布會(huì )上著(zhù)重提到了Hopper首次配備的Transformer引擎。

嗯,專(zhuān)為T(mén)ransformer打造,讓這類(lèi)模型在訓練時(shí)保持精度不變、性能提升6倍,意味著(zhù)訓練時(shí)間從幾周縮短至幾天。

怎么表現?

現在,無(wú)論是訓練1750億參數的GPT-3 (19小時(shí)),還是3950億參數的Transformer大模型(21小時(shí)),H100都能將訓練時(shí)間從一周縮短到1天之內,速度提升高達9倍。

推理性能也是大幅提升,像英偉達推出的5300億 Megatron模型,在H100上推理時(shí)的吞吐量比A100直接高出30倍,響應延遲降低到1秒,可以說(shuō)是完美hold住了。

圖片

不得不說(shuō),英偉達這波確實(shí)突入了Transformer陣營(yíng)。

在此之前,英偉達一系列GPU優(yōu)化設計基本都是針對卷積架構進(jìn)行的,接近要把“I love 卷積”這幾個(gè)字印在腦門(mén)上。

要怪只怪Transformer最近實(shí)在太受歡迎。(手動(dòng)狗頭)

當然,H100的亮點(diǎn)不止如此,伴隨著(zhù)它以及英偉達一系列芯片,隨后都會(huì )引入NVIDIA NVLink第四代互連技術(shù)。

也就是說(shuō),芯片堆堆樂(lè )的效率更高了,I/O帶寬更是擴展至900GB/s。

圖片

這次,老黃還著(zhù)重提到了GPU的安全性,包括實(shí)例之間具有隔離保護、新GPU具有機密計算功能等。

當然,數學(xué)計算能力也提升了。

這次H100上新的DPX指令可以加速動(dòng)態(tài)規劃,在運算路徑優(yōu)化和基因組學(xué)在內的一系列動(dòng)態(tài)規劃算法時(shí)速度提升了7倍。

據老黃介紹,H100會(huì )在今年第三季度開(kāi)始供貨,網(wǎng)友調侃“估計也便宜不了”。

目前,H100有兩個(gè)版本可選:

一個(gè)就是功率高達700W的SXM,用于高性能服務(wù)器;另一個(gè)是適用于更主流的服務(wù)器PCIe,功耗也比上一代A100的300W多了50W。

4608塊H100,打造全球最快AI超算

H100都發(fā)布了,老黃自然不會(huì )放過(guò)任何一個(gè)搭建超級計算機的機會(huì )。

基于H100推出的最新DGX H100計算系統,與上一代“烤箱”一樣,同樣也是配備8塊GPU。


不同的是,DGX H100系統在FP8精度下達到了32 Petaflop的AI性能,比上一代DGX A100系統整整高了6倍。

各GPU之間的連接速度也變得更快,900GB/s的速度接近上一代的1.5倍。

最關(guān)鍵的是,這次英偉達還在DGX H100基礎上,搭建了一臺Eos超級計算機,一舉成為AI超算界的性能TOP 1——

光就18.4 Exaflops的AI計算性能,就比日本的“富岳”(Fugaku)超級計算機快了4倍。

這臺超算配備了576個(gè)DGX H100系統,直接用了4608塊H100。

即使是傳統科學(xué)計算,算力也能達到275 Petaflops (富岳是442 Petaflops),躋身前5的超算是沒(méi)什么問(wèn)題。

圖片

“拼裝”CPU,跑分成了TOP1

本次GTC大會(huì ),老黃仍然“提了幾嘴”超級服務(wù)器芯片Grace。

它在去年4月份的GTC大會(huì )就已經(jīng)有所亮相,和當時(shí)一樣,老黃表示:有望2023年可以開(kāi)始供貨,反正今年是不可能碰上了。

不過(guò),Grace的性能倒是值得一提,有了“驚人進(jìn)展”。

它被用在兩個(gè)超級芯片中:

一個(gè)是Grace Hopper超級芯片,單MCM,由一個(gè)Grace CPU和一個(gè)Hopper架構的GPU組成。

一個(gè)是Grace CPU超級芯片,由兩個(gè)Grace CPU組成,通過(guò)NVIDIA NVLink-C2C技術(shù)互連,包括144個(gè)Arm核心,并有著(zhù)高達1TB/s的內存帶寬——帶寬提升2倍的同時(shí),能耗“只要”500w。

圖片

很難不讓人聯(lián)想到蘋(píng)果剛發(fā)的M1 Ultra,看來(lái)片間互連技術(shù)的進(jìn)展,讓“拼裝”成了芯片行業(yè)一大趨勢。

圖片

Grace超級芯片在SPECrate?2017_int_base基準測試中的模擬性能達到了740分,是當前DGX A100 搭載的CPU的1.5倍(460分)。

Grace超級芯片可以運行在所有的NVIDIA計算平臺,既可作為獨立的純CPU系統,也可作為 GPU加速服務(wù)器,利用NVLink-C2C技術(shù)搭載一塊至八塊基于Hopper架構的GPU。

圖片

(嗯,剛說(shuō)完,老黃的芯片堆堆樂(lè )就堆上了。)

值得一提的是,英偉達對第三方定制芯片開(kāi)放了NVLink-C2C。

它是一種超快速的芯片到芯片、裸片到裸片的互連技術(shù),將支持定制裸片與NVIDIA GPU、CPU、DPU、NIC 和SOC之間實(shí)現一致的互連。

圖片

或許,任天堂新掌機可以期待一波?

連工業(yè)也要在元宇宙里搞

當然,除了上述內容之外,這次英偉達也透露了不少與工業(yè)應用相關(guān)的案例。

而無(wú)論是自動(dòng)駕駛、還是包括虛擬工廠(chǎng)的數字孿生等場(chǎng)景,都與計算機渲染和仿真技術(shù)有著(zhù)密不可分的關(guān)系。

英偉達認為,工業(yè)上同樣能通過(guò)在虛擬環(huán)境中模擬的方式,來(lái)增加AI訓練的數據量,換而言之就是“在元宇宙里搞大訓練”。

例如,讓AI智能駕駛在元宇宙里“練車(chē)”,利用仿真出來(lái)的數據搞出半真實(shí)環(huán)境,增加一些可能突發(fā)故障的環(huán)境模擬:


又例如,搞出等比例、與現實(shí)環(huán)境中材料等參數完全一樣的“數字工廠(chǎng)”,在建造前先提前開(kāi)工試運行,以及時(shí)排查可能出現問(wèn)題的環(huán)境。


除了數字孿生,數字資產(chǎn)的生產(chǎn)也是元宇宙早期建設階段需要著(zhù)重考慮的部分。

在這方面,英偉達推出了隨時(shí)隨地能在云端協(xié)作的Omniverse Cloud。

圖片

最有意思的是,這次發(fā)布會(huì )上還演示了一套AI驅動(dòng)虛擬角色系統。

現實(shí)中3天,虛擬角色在元宇宙里強化學(xué)習苦練10年功夫。


等練成一身本領(lǐng),出來(lái)無(wú)論到游戲還是動(dòng)畫(huà)里都是個(gè)好“動(dòng)作演員”。

用它生成動(dòng)畫(huà)無(wú)需再綁定骨骼、k幀,用自然語(yǔ)言下指令即可,就像導演和真人演員一樣溝通,大大縮短開(kāi)發(fā)流程。


要論元宇宙基建還得看老黃啊。

Venturebeat對此評價(jià)稱(chēng),“這些案例給元宇宙賦予了真正的意義”。

那么,你看好英偉達的omniverse前景嗎?

更多詳情,可以戳完整演講地址(帶中字哦):
https://www.nvidia.cn/gtc-global/keynote/?nvid=nv-int-bnr-223538&sfdcid=Internal_banners

參考鏈接:
[1]https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced
[2]https://venturebeat.com/2022/03/22/nvidia-gtc-how-to-build-the-industrial-metaverse/

來(lái)源:量子位


*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。



關(guān)鍵詞: 英偉達

相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>