AI業(yè)界,全球最大16核心GPU原理剖析
隨著(zhù)AI市場(chǎng)的興起,近年來(lái)各業(yè)界精英在GPU上持續發(fā)力,不斷推出全新的產(chǎn)品。新產(chǎn)品在計算能力提升的同時(shí),其芯片面積也已經(jīng)屢創(chuàng )新高,甚至逼近了制程和成本的平衡極限。前不久,一款超級計算機的發(fā)布,讓人嘩然,人們震驚的是其擁有16顆Volta GPU所展現的強大的計算能力,16核GPU可提供高達2PFLOPS的深度學(xué)習計算能力,成為目前AI業(yè)界的最強者。
本文引用地址:http://dyxdggzs.com/article/201808/390897.htm這16顆Tesla V100的GPU連接在一起,并發(fā)揮出如此強大的計算能力的的核心當屬NVLink 2和NVSwitch。
1、NVLINK
隨著(zhù)開(kāi)發(fā)人員在人工智能(AI)計算等應用領(lǐng)域中越來(lái)越依賴(lài)并行結構,各行各業(yè)中的多GPU 和多CPU系統愈發(fā)普及。其中包括采用PCIe系統互聯(lián)技術(shù)的4GPU和8GPU系統配置來(lái)解決非常復雜的重大難題。然而,在多 GPU系統層面,PCIe帶寬逐漸成為瓶頸,這就需要更快速和更具擴展性的多處理器互聯(lián)技術(shù)。
a、更快速、更具可擴展性的互聯(lián)技術(shù)
NVLink技術(shù)可以提供更高帶寬與更多鏈路,并可提升多GPU和多GPU/CPU系統配置的可擴展性,因而可以解決這種互聯(lián)問(wèn)題。通過(guò)提高可擴展性,進(jìn)而實(shí)現超快速的深度學(xué)習訓練。
NVLink技術(shù)首先將每個(gè)方向的信號發(fā)送速率從20GB/每秒增加到25GB/每秒。含此技術(shù)的產(chǎn)品可用于GPU至CPU或GPU至GPU的通信。
b、3層控制層,能更大限度提高系統吞吐量
NVLink控制器由3層組成,即物理層(PHY)、數據鏈路層(DL)以及交易層(TL)。下圖展示了P100 NVLink 1.0的各層和鏈路:
P100搭載的NVLink 1.0,每個(gè)P100有4個(gè)NVLink通道,每個(gè)擁有40GB/s的雙向帶寬,每個(gè)P100可以最大達到160GB/s帶寬。
V100搭載的NVLink 2.0,每個(gè)V100增加了50%的NVLink通道達到6個(gè),信號速度提升28%使得每個(gè)通道達到50G的雙向帶寬,因而每個(gè)V100可以最大達到300GB/s的帶寬。
下圖是HGX-1/DGX-1使用的8個(gè)V100的混合立方網(wǎng)格拓撲結構,雖然V100有6個(gè)NVlink通道,但是實(shí)際上因為無(wú)法做到全連接,2個(gè)GPU間最多只能有2個(gè)NVLink通道100G/s的雙向帶寬。而GPU與CPU間通信仍然使用PCIe總線(xiàn)。CPU間通信使用QPI總線(xiàn)。這個(gè)拓撲雖然有一定局限性,但依然大幅提升了同一CPU Node和跨CPU Node的GPU間通信帶寬。
2、NVSwitch
a、拓撲擴展實(shí)現完全連接的NVLINK
類(lèi)似于PCIe使用PCIe Switch用于拓撲的擴展,使用NVSwitch實(shí)現了NVLink的全連接。NVSwitch作為首款節點(diǎn)交換架構,可支持單個(gè)服務(wù)器節點(diǎn)中16個(gè)全互聯(lián)的GPU,并可使全部8個(gè)GPU對分別以 300GB/s 的驚人速度進(jìn)行同時(shí)通信。這16個(gè)全互聯(lián)的GPU(32G顯存V100)還可作為單個(gè)大型加速器,擁有 0.5TB統一顯存空間和2PetaFLOPS 計算性能。
由于PCIe 帶寬日益成為多GPU系統級別的瓶頸,深度學(xué)習工作負載的快速增長(cháng)使得對更快速、更可擴展的互連的需求逐漸增加。
NVLink實(shí)現了很大的進(jìn)步,可以在單個(gè)服務(wù)器中支持八個(gè)GPU,并且可提升性能,使之超越 PCIe。但是,要將深度學(xué)習性能提升到一個(gè)更高水平,將需要使用GPU 架構,該架構在一臺服務(wù)器上支持更多的GPU以及GPU之間的全帶寬連接。
b、首款節點(diǎn)交換架構,加速深度學(xué)習和高性能計算
NVIDIA NVSwitch 是首款節點(diǎn)交換架構,可支持單個(gè)服務(wù)器節點(diǎn)中16個(gè)全互聯(lián)的GPU,并可使全部8個(gè)GPU 對分別以300GB/s 的驚人速度進(jìn)行同時(shí)通信。這16個(gè)全互聯(lián)的GPU還可作為單個(gè)大型加速器,擁有0.5TB統一顯存空間和2PetaFLOPS計算性能。
NVIDIA NVLink將采用相同配置的服務(wù)器性能提高31%。使用NVSwitch的DGX-2則能夠達到2倍以上的深度學(xué)習和高性能計算的加速。
評論