<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 市場(chǎng)分析 > GPU如何主宰人工智能和計算

GPU如何主宰人工智能和計算

作者: 時(shí)間:2024-04-03 來(lái)源:半導體產(chǎn)業(yè)縱橫 收藏

三十年前,CPU 和其他專(zhuān)用處理器處理幾乎所有計算任務(wù)。那個(gè)時(shí)代的顯卡可以加速 Windows 和應用程序中 2D 形狀的繪制,但沒(méi)有其他用途。

本文引用地址:http://dyxdggzs.com/article/202404/457161.htm

快進(jìn)到今天, 已經(jīng)成為行業(yè)中最主要的芯片之一。

如今, 不再僅僅是用于圖形處理的設備——實(shí)際上機器學(xué)習和高性能計算已經(jīng)嚴重依賴(lài)于這個(gè)看似微不足道的 的處理能力。讓我們一起探討這一芯片是如何從一個(gè)樸素的像素處理器演變成具有強大浮點(diǎn)計算能力的核心設備的。

起初 CPU 主宰一切

讓我們回到 20 世紀 90 年代末。高性能計算領(lǐng)域,涵蓋了超級計算機上的科學(xué)研究、標準服務(wù)器上的數據處理以及工作站上的工程和設計任務(wù),完全依賴(lài)于兩種類(lèi)型的 CPU:1)專(zhuān)為某一特定目的而設計的專(zhuān)用處理器;2)來(lái)自 AMD、IBM 或英特爾的現成芯片。

ASCI 紅色超級計算機是 1997 年最強大的超級計算機之一,由 9,632 顆英特爾奔騰 II Overdrive 處理器組成(如下圖所示)。每個(gè)處理器單元運行在 333 MHz 的頻率下,系統的理論峰值計算性能達到了超過(guò) 3.2 TFLOPS(每秒萬(wàn)億次浮點(diǎn)運算)。

來(lái)源:維基百科

在本文中,我們經(jīng)常會(huì )提及 TFLOPS,因此有必要花一些時(shí)間來(lái)解釋一下它的含義。在計算機科學(xué)中,浮點(diǎn)數(floating points,簡(jiǎn)稱(chēng)浮點(diǎn))是表示非整數值的數據類(lèi)型,例如 6.2815 或 0.0044。整數值常用于進(jìn)行控制計算機及其上運行的任何軟件所需的計算。

浮點(diǎn)數對于精度至關(guān)重要的情況至關(guān)重要,尤其是與科學(xué)或工程相關(guān)的任何事物。即使是一個(gè)簡(jiǎn)單的計算,比如求圓的周長(cháng),也至少涉及到一個(gè)浮點(diǎn)數值。

多年來(lái),CPU 一直擁有用于在整數和浮點(diǎn)數上執行邏輯運算的單獨電路。在前文提到的奔騰 II 過(guò)載版中,它可以在每個(gè)時(shí)鐘周期內執行一個(gè)基本的浮點(diǎn)操作(乘法或加法)。理論上,這就是為什么 ASCI Red 的浮點(diǎn)峰值性能為 9,632 個(gè) CPU x 3.33 億個(gè)時(shí)鐘周期 x 1 操作/周期 = 3,207,456 百萬(wàn) FLOPS。

這些數據是基于理想條件(例如,使用最簡(jiǎn)單的指令處理適合緩存的數據),在現實(shí)中很難實(shí)現。然而,它們?yōu)樵u估系統潛在性能提供了一個(gè)很好的參考。

其他超級計算機也擁有類(lèi)似數量的標準處理器——位于勞倫斯利弗莫爾國家實(shí)驗室的藍色太平洋使用了 5808 個(gè) IBM 的 PowerPC 604e 芯片,洛斯阿拉莫斯國家實(shí)驗室的藍色山脈(見(jiàn)上圖)容納了 6144 個(gè) MIPS Technologies R1000 芯片。

要達到太浮點(diǎn)運算級別,需要數千個(gè) CPU,以及大量的 RAM 和硬盤(pán)存儲作為支持。因為這些設備的數學(xué)需求如此之高,直到現在這種情況仍然存在。

當我們在學(xué)校的物理、化學(xué)和其他學(xué)科中第一次接觸方程式時(shí),一切都是一維的。換句話(huà)說(shuō),我們對距離、速度、質(zhì)量、時(shí)間等使用單一的數字。然而,為了準確地建模和模擬現象,需要更多的維度,數學(xué)進(jìn)入了向量、矩陣和張量的領(lǐng)域。

這些在數學(xué)中被視為單一實(shí)體,但包含多個(gè)值,這意味著(zhù)任何進(jìn)行計算的計算機需要同時(shí)處理大量數字??紤]到當時(shí)的 CPU 每周期只能處理一到兩個(gè)浮點(diǎn)數,因此需要數千個(gè) CPU。

SIMD 加入戰局:MMX,3DNow! 和 SSE

1997 年,英特爾更新了 Pentium CPU 系列,引入了一項名為 MMX 的技術(shù)擴展——一組在核心內部利用八個(gè)附加寄存器的指令。每個(gè)寄存器被設計成存儲一到四個(gè)整數值。這種系統允許處理器在多個(gè)數值上同時(shí)執行單條指令,這種方法更為人所熟知的是 SIMD(單指令,多數據)。

一年后,AMD 推出了自己的版本,名為 3DNow!。由于寄存器可以存儲浮點(diǎn)值,這使得 3DNow! 明顯優(yōu)于 MMX。又過(guò)了一年,英特爾在奔騰 III 中引入了 SSE(流式單指令多數據擴展),解決了 MMX 中的問(wèn)題。

3DNow! 首次亮相于 AMD K6-2 CPU。來(lái)源:Fritzchens Fritz

隨著(zhù)時(shí)間推移,高性能計算機設計者們已經(jīng)能使用可高效處理向量數學(xué)的標準處理器。

經(jīng)過(guò)千百萬(wàn)次的擴展,這些處理器可以同樣高效地處理矩陣和張量。盡管取得了這一進(jìn)步,但超級計算機領(lǐng)域仍更青睞舊式或專(zhuān)用芯片,因為這些新擴展并未專(zhuān)為此類(lèi)任務(wù)而設計。此外,還有另一種比 AMD 或 Intel 的任何 CPU 更擅長(cháng) SIMD 處理的迅速流行處理器:GPU。

在圖形處理器的早期,CPU 處理場(chǎng)景中組成三角形的計算(因此,AMD 為其 SIMD 實(shí)現使用了 3DNow! 這個(gè)名字)。然而,像素的著(zhù)色和紋理處理完全由 GPU 負責,并且這項工作的許多方面涉及到矢量數學(xué)。

20 多年前最好的消費級顯卡,如 3dfx Voodoo5 5500 和 Nvidia GeForce 2 Ultra,都是出色的 SIMD 設備。然而,它們是為制作游戲的 3D 圖形而創(chuàng )建,沒(méi)有其他用途。即使在專(zhuān)業(yè)市場(chǎng)上的顯卡也完全專(zhuān)注于渲染。

來(lái)源: The Time Trekking Technologist

ATI 的 ATI FireGL 3 配備了兩個(gè) IBM 芯片(一個(gè) GT1000 幾何引擎和一個(gè) RC1000 柵格化器),高達 128 MB 的 DDR-SDRAM,以及聲稱(chēng)的 30 GFLOPS 的處理能力。然而,所有這些都是為了加速像 3D Studio Max 和 AutoCAD 這樣的程序中的圖形渲染,使用的是 OpenGL 渲染 API。

那個(gè)時(shí)代的 GPU 并沒(méi)有配備用于其他用途的功能,因為將 3D 對象變換并轉換為顯示器圖像的過(guò)程并不涉及大量的浮點(diǎn)運算。實(shí)際上,其中很大一部分是整數級別的運算,而且在顯卡開(kāi)始在整個(gè)管道大量使用浮點(diǎn)值之前還需要幾年時(shí)間。

其中最早的一個(gè)是 ATI 的 R300 處理器,它擁有 8 個(gè)獨立的像素管線(xiàn),可以以 24 位浮點(diǎn)精度處理所有數學(xué)運算。遺憾的是,除了圖形處理之外,無(wú)法利用其強大的性能——硬件和相關(guān)軟件都完全以圖像為中心。

計算機工程師并非對于 GPU 具有大量 SIMD 能力但缺乏將其應用于其他領(lǐng)域的途徑一無(wú)所知。令人驚訝的是,正是一款游戲主機向我們展示了如何解決這個(gè)棘手問(wèn)題。

統一的新時(shí)代

2005 年 11 月,微軟的 Xbox 360 上市,搭載了一款由 IBM 設計制造、基于 PowerPC 架構的 CPU,以及一款由 ATI 設計、由 TSMC 制造的 GPU。

這款名為 Xenos 的顯卡芯片非常特殊,因為其布局完全摒棄了傳統的分離頂點(diǎn)和像素管道的方法。

Xenos 激發(fā)了一種至今仍在使用的設計范例的出現。

來(lái)源:Oleg Kashirin

取而代之的是一個(gè)由三組 SIMD 陣列組成的簇。具體來(lái)說(shuō),每個(gè)簇包含 16 個(gè)向量處理器,每個(gè)處理器包含 5 個(gè)數學(xué)單元。這種布局使每個(gè)陣列能夠在一個(gè)周期內同時(shí)對 80 個(gè)浮點(diǎn)數據值執行來(lái)自線(xiàn)程的兩個(gè)順序指令。

統一著(zhù)色器架構使得每個(gè)陣列都能處理任何類(lèi)型的著(zhù)色器。盡管這使芯片的其他方面變得更為復雜,但 Xenos 引發(fā)的設計模式至今仍在使用。在 500 MHz 的時(shí)鐘速度下,整個(gè)集群理論上可以實(shí)現 240 GFLOPS(500 x 16 x 80 x 2)的處理速度,用于執行三個(gè)線(xiàn)程的乘-加指令。

為了讓這個(gè)數字更具規模感,我們可以將其與 10 年前世界頂級超算的速度進(jìn)行對比。例如,1994 年位居世界超算之首的桑迪亞國家實(shí)驗室的 Aragon XP/S140,其擁有 3,680 個(gè)英特爾 i860 CPU,峰值達到了 184 GFLOPS。芯片發(fā)展的步伐迅速超過(guò)了這臺機器,但 GPU 的情況也是如此。

多年來(lái),CPU 已經(jīng)將 SIMD 陣列集成到自己的設計中,例如,英特爾最早的奔騰 MMX 就擁有一個(gè)專(zhuān)用單元來(lái)處理向量上的命令,其中包括多達 8 個(gè) 8 位整數。到 Xbox 的 Xenos 在全球家庭中應用的時(shí)候,這樣的單元至少已經(jīng)擴大了兩倍,但相較于 Xenos 中的單元,它們仍然顯得很小。

來(lái)源:Fritzchens Fritz

當消費級顯卡開(kāi)始采用統一著(zhù)色器架構的 GPU 時(shí),它們已經(jīng)具有比 Xbox 360 圖形芯片更高的處理速率。

英偉達的 G80(如上圖所示),用于 GeForce 8800 GTX(2006)的理論峰值達到了 346 GLFOPS,而 ATI 的 R600 在 Radeon HD 2900 XT(2007)上宣稱(chēng)達到了 476 GLFOPS。

兩大顯卡制造商很快在其專(zhuān)業(yè)型號上利用這種計算能力。雖然價(jià)格昂貴,但 ATI FireGL V8650 和 Nvidia Tesla C870 非常適合高端科學(xué)計算機。然而,在最高水平上,全球的超級計算機仍繼續依賴(lài)標準 CPU。事實(shí)上,在 GPU 開(kāi)始出現在最強大的系統之前還需要過(guò)去幾年時(shí)間。

那么,鑒于 GPU 顯然能提供顯著(zhù)的處理速度,為什么它們一開(kāi)始就沒(méi)有被使用呢?

超級計算機及類(lèi)似系統的設計、建造和運行成本極高。多年來(lái),它們都是圍繞著(zhù)大量 CPU 構建的,因此,一夜之間整合其他處理器并非易事。這樣的系統需要進(jìn)行徹底的規劃和初步的小規模測試,然后逐步增加芯片數量。

其次,要讓所有這些組件在軟件方面協(xié)調運行并非易事,這對當時(shí)的 GPU 來(lái)說(shuō)是一個(gè)重大的弱點(diǎn)。盡管 GPU 已經(jīng)具有高度可編程性,但之前為它們提供的軟件還是相當有限的。

Microsoft 的 HLSL(高級著(zhù)色器語(yǔ)言),英偉達的 Cg 庫和 OpenGL 的 GLSL 使訪(fǎng)問(wèn)圖形芯片的處理能力變得簡(jiǎn)單,盡管這僅用于渲染。

所有這些都隨著(zhù)統一著(zhù)色器架構 GPU 的出現而發(fā)生了改變。

在 2006 年,當時(shí)已成為 AMD 子公司的 ATI 和英偉達發(fā)布了旨在將此功能用于不僅僅是圖形處理的軟件工具包,它們分別使用名為 CTM(Close To Metal)和 CUDA(計算統一設備架構)的 API。

科學(xué)和數據處理領(lǐng)域的研究人員真正需要的是一個(gè)全面的解決方案——一個(gè)能將龐大的 CPU 和 GPU 陣列(通常稱(chēng)為異構平臺)作為一個(gè)由眾多計算設備組成的單一實(shí)體。

2009 年,他們的需求得到了滿(mǎn)足。最初,OpenCL 是由蘋(píng)果公司開(kāi)發(fā)的,后來(lái)由接管 OpenGL 的 Khronos Group 發(fā)布。如今,OpenCL 已成為在日常圖形外使用 GPU 的事實(shí)上的統一軟件平臺。而當時(shí)人們稱(chēng)這個(gè)領(lǐng)域為 GPGPU,即指在 GPU 上進(jìn)行通用計算,這個(gè)概念由 Mark Harris 首創(chuàng )。

GPU 加入計算競賽

與龐大的科技評論世界不同,全球并沒(méi)有數百名評論家在測試超級計算機的性能聲明。然而,自 20 世紀 90 年代初以來(lái),德國曼海姆大學(xué)的一個(gè)持續進(jìn)行的項目就旨在實(shí)現這一目標。

被稱(chēng)為 TOP500 的組織,每年發(fā)布兩次全球十大最強大超級計算機的排名榜單。

2010 年榜單上首次出現了裝備 GPU 的計算機,這兩臺來(lái)自中國的系統分別是星云和天河一號。星云使用了英偉達的 Tesla C2050(實(shí)質(zhì)上是 GeForce GTX 470,如下圖所示),而天河一號則采用了 AMD 的 Radeon HD 4870 芯片。前者具有理論峰值 2,984 TFLOPS。

來(lái)源: Fritchens Fritz

在早期高端 GPGPU 時(shí)代,英偉達成為了配置計算巨擘的首選廠(chǎng)商,并非因為性能上的優(yōu)勢——通常 AMD 的 Radeon 顯卡具有更高的處理性能——而是因為軟件支持。CUDA 得到了快速的發(fā)展,而在 AMD 推出合適的替代方案之前,還需要幾年的時(shí)間,這就促使用戶(hù)選擇使用 OpenCL。

然而,英偉達并沒(méi)有完全壟斷市場(chǎng)。英特爾的 Xeon Phi 處理器也試圖在市場(chǎng)上占有一席之地。這些處理器源自一個(gè)被終止的名為 Larrabee 的 GPU 項目,它構成了一個(gè)奇特的 CPU-GPU 混合體。Xeon Phi 處理器由多個(gè)類(lèi)似 Pentium 的核心(即 CPU 部分)組成,并搭配了大型浮點(diǎn)運算單元(即 GPU 部分)。

對 Nvidia Tesla C2050 內部的檢查展示了 14 個(gè)被稱(chēng)為流式多處理器(SMs)的模塊,這些模塊通過(guò)緩存和中央控制器進(jìn)行劃分。每個(gè)模塊中包含 32 組邏輯電路(英偉達稱(chēng)之為 CUDA 核心),分別負責執行整數值和浮點(diǎn)數的所有數學(xué)運算。對于后者,每個(gè)核心每個(gè)時(shí)鐘周期可以處理單精度(32 位)的一次 FMA(融合乘加)操作;而雙精度(64 位)操作至少需要兩個(gè)時(shí)鐘周期。

Xeon Phi 芯片中的浮點(diǎn)處理單元(如下圖所示)似乎有相似之處,但每個(gè)核心處理的數據量只有 C2050 中一個(gè) SM 的一半。盡管如此,與特斯拉的 14 個(gè) SM 相比,單個(gè) Xeon Phi 處理器有 32 個(gè)重復的核心,因此每個(gè)時(shí)鐘周期總體上可以處理更多的數據。然而,英特爾首次發(fā)布的芯片更像是一個(gè)原型,并未完全發(fā)揮其潛力。相較而言,英偉達的產(chǎn)品運行速度更快、功耗更低,并最終被證明更勝一籌。


在 AMD、英特爾和英偉達三家公司的 GPGPU 競爭中,這成為了一個(gè)反復出現的主題。其中一個(gè)公司的產(chǎn)品可能在處理核心數量上占優(yōu)勢,而另一個(gè)公司的產(chǎn)品可能在時(shí)鐘速度上更快,或擁有更強大的緩存系統。

CPU 在各種類(lèi)型的計算中仍然不可或缺,許多超級計算機和高端計算系統仍然采用 AMD 或 Intel 處理器。雖然單個(gè) CPU 在 SIMD 性能上無(wú)法與一般 GPU 競爭,但當它們以數千計連接在一起時(shí),表現就相當不錯了。然而,這樣的系統在功耗效率方面欠佳。

例如,在 Radeon HD 4870 GPU 被用于天河一號超級計算機的同時(shí),AMD 的頂級服務(wù)器 CPU(12 核 Opteron 6176 SE)也在廣泛應用。雖然 CPU 的功耗約為 140W,理論上可達到 220 GFLOPS 的性能,但僅增加 10W 功耗的 GPU 則可提供高達 1,200 GFLOPS 的峰值性能,且成本只是 CPU 的一小部分。

一塊能做更多事的「小顯卡」

幾年后,不僅是世界上的超級計算機在使用 GPU 進(jìn)行大量并行計算,英偉達也積極推廣其 GRID 平臺,這是一項用于科學(xué)和其他應用的 GPU 虛擬化服務(wù)。最初,它作為一個(gè)托管云端游戲的系統推出,但在 GPGPU 大規模、低成本需求不斷增長(cháng)的推動(dòng)下,發(fā)生了這一轉變。在英偉達的年度技術(shù)會(huì )議上,GRID 作為各個(gè)行業(yè)工程師們的重要工具展示出來(lái)。

在同一活動(dòng)中,GPU 制造商展示了一個(gè)未來(lái)架構的概要,代號為 Volta。發(fā)布的細節很少,人們普遍認為這將是另一款面向英偉達所有市場(chǎng)的芯片。

與此同時(shí),AMD 也在開(kāi)展類(lèi)似的項目。他們通過(guò)不斷更新其游戲型 Radeon 系列、服務(wù)器型 FirePro 和 Radeon Sky 系列顯卡的圖形核心下一代(GCN)設計。當時(shí)的性能表現令人驚嘆,FirePro W9100 的峰值 FP32 吞吐量達到 5.2 TFLOPS(32 位浮點(diǎn)),這一數據在不到二十年前的超級計算機上難以想象。

盡管 GPU 設計的初衷主要還是為了 3D 圖形處理,但隨著(zhù)渲染技術(shù)的發(fā)展,這些芯片必須在處理通用計算任務(wù)方面表現出越來(lái)越高的性能。然而,唯一的問(wèn)題在于它們處理高精度浮點(diǎn)數計算(即 FP64 或更高精度)的能力有限。

回顧 2015 年全球頂級超級計算機,使用 GPU 的數量相對較少,不論是 Intel 的 Xeon Phi 還是英偉達的 Tesla,與完全基于 CPU 的計算機相比,GPU 使用的數量都很少。

2016 年,隨著(zhù)英偉達發(fā)布 Pascal 架構,一切都發(fā)生了變化。這是該公司首次將重點(diǎn)放在專(zhuān)為高性能計算市場(chǎng)設計的 GPU 上,其他產(chǎn)品則適用于多個(gè)行業(yè)。在 Pascal 架構中,僅有一種型號(GP100)產(chǎn)品是針對高性能計算市場(chǎng)的,并僅衍生出 5 款相關(guān)產(chǎn)品。但是,在以往的架構中,只有少數幾個(gè) FP64 核心,而這款芯片則擁有接近 2000 個(gè) FP64 核心。

機架式裝置中的 8 個(gè) P100 顯卡。來(lái)源:ComputerBase

隨著(zhù)特斯拉 P100 提供超過(guò) 9 TFLOPS 的 FP32 處理能力和一半的 FP64 處理能力,這款圖形卡非常強大。相比之下,AMD 的 Radeon Pro W9100 使用 Vega 10 芯片,在 FP32 性能上提速 30%,但在 FP64 性能上卻慢了 800%。此時(shí),由于銷(xiāo)售疲軟,英特爾即將停產(chǎn) Xeon Phi 處理器。

一年后,英偉達終于發(fā)布了 Volta 架構,立刻表明公司不僅僅關(guān)注將其 GPU 引入高性能計算(HPC)和數據處理市場(chǎng),還瞄準了另一個(gè)市場(chǎng)。

神經(jīng)元、網(wǎng)絡(luò ),真是驚奇無(wú)比

深度學(xué)習是在更廣泛的機器學(xué)習領(lǐng)域內的一個(gè)子領(lǐng)域,而機器學(xué)習又是人工智能的一個(gè)子集。深度學(xué)習涉及使用復雜數學(xué)模型,即神經(jīng)網(wǎng)絡(luò ),從給定數據中提取信息。

一個(gè)例子是判斷給定圖片描繪的是否為特定動(dòng)物的概率。要做到這一點(diǎn),模型需要進(jìn)行「訓練」——以這個(gè)例子為例,訓練過(guò)程中要展示數百萬(wàn)張該動(dòng)物的照片,以及數百萬(wàn)張未出現該動(dòng)物的照片。涉及到的數學(xué)計算主要基于矩陣和張量運算。

幾十年來(lái),這種工作負載一直只能由基于 CPU 的超級計算機承擔。然而,早在 2000 年代初期,人們已經(jīng)認識到 GPU 非常適合處理這樣的任務(wù)。

盡管如此,英偉達把賭注押在深度學(xué)習市場(chǎng)的顯著(zhù)擴張上,并在其 Volta 架構中添加了特殊功能以在這一領(lǐng)域中脫穎而出。這個(gè)功能被稱(chēng)為張量核心,它包括多個(gè) FP16 邏輯單元,組成一個(gè)大陣列,但其功能較為有限。

Pascal(左)和 Volta(右)

實(shí)際上,它們的功能非常有限,只能執行一個(gè)操作:將兩個(gè) FP16 4x4 矩陣相乘,然后將另一個(gè) FP16 或 FP32 4x4 矩陣加到結果上(這個(gè)過(guò)程稱(chēng)為 GEMM 操作)。英偉達以及競爭對手之前的 GPU 也能執行這樣的計算,但速度遠不如 Volta。這個(gè)架構下的唯一一款 GPU,GV100,共有 512 個(gè)張量?jì)群?,每個(gè)內核能在一個(gè)時(shí)鐘周期內執行 64 個(gè) GEMM 操作。

根據數據集中矩陣的大小以及所使用的浮點(diǎn)數大小,Tesla V100 顯卡在進(jìn)行張量計算時(shí)理論上可以達到 125 TFLOPS 的性能。顯然,Volta 是為一個(gè)小眾市場(chǎng)而設計的。盡管 GP100 在超級計算機領(lǐng)域的應用較為有限,但新型的 Tesla 顯卡卻迅速被廣泛采用。

隨后,英偉達在其后續的圖靈架構中為普通消費類(lèi)產(chǎn)品添加了張量核心,并開(kāi)發(fā)了名為 DLSS(深度學(xué)習超采樣)的圖像放大技術(shù)。DLSS 利用 GPU 中的核心運行神經(jīng)網(wǎng)絡(luò )對圖像進(jìn)行放大,同時(shí)糾正幀中的任何失真。

有一段時(shí)間,英偉達在深度學(xué)習領(lǐng)域的 GPU 加速市場(chǎng)一家獨大,數據中心業(yè)務(wù)的收入飆升,在 2017 財年、2018 財年和 2019 財年分別達到了 145%、133% 和 52% 的增長(cháng)。到 2019 財年末,高性能計算、深度學(xué)習等市場(chǎng)的銷(xiāo)售收入累計達到 29 億美元,取得了非常顯著(zhù)的成果。

市場(chǎng)隨后迎來(lái)了爆炸式增長(cháng)。2023 年最后一個(gè)季度,公司的總收入達到了 221 億美元,同比暴增達到了 265%。大部分增長(cháng)是由公司的人工智能項目帶來(lái)的,貢獻了 184 億美元的收入。

然而,在利潤豐厚的領(lǐng)域,競爭自然難以避免。盡管英偉達仍是頂級 GPU 供應商,但其他大型科技公司也絕非甘于落后。

2018 年,谷歌開(kāi)始通過(guò)云服務(wù)提供自家開(kāi)發(fā)的張量處理芯片(Tensor Processing Chips)的訪(fǎng)問(wèn)。不久之后,亞馬遜也跟進(jìn)推出了專(zhuān)門(mén)的 CPU——AWS Graviton。同時(shí),AMD 正在重組其 GPU 部門(mén),形成了兩個(gè)截然不同的產(chǎn)品線(xiàn):一個(gè)主要面向游戲(RDNA),另一個(gè)專(zhuān)門(mén)用于計算(CDNA)。

盡管 RDNA 與其前身有顯著(zhù)不同,但 CDNA 實(shí)際上可以看作是 GCN 的自然演進(jìn),只不過(guò)是放大到了龐大的規模。如今,觀(guān)察用于超級計算機、數據服務(wù)器和 AI 機器的 GPU,一切都呈現出巨大的規模。

AMD 的 CDNA 2 驅動(dòng)的 MI250X 配備了 220 個(gè)計算單元,提供了接近 48 TFLOPS 的雙精度 FP64 吞吐量,以及 128 GB 的高帶寬存儲器(HBM2e)。這兩方面在高性能計算應用中都備受追捧。而英偉達的 GH100 芯片,采用 Hopper 架構和 576 個(gè)張量核心,在 AI 矩陣計算中使用低精度的 INT8 數字格式,可以潛在地達到 4000 TOPS。

英特爾的 Ponte Vecchio GPU 同樣龐大,擁有 1000 億個(gè)晶體管,而 AMD 的 MI300 多了 460 億,由多個(gè) CPU、圖形和內存芯片組成。

然而,這些產(chǎn)品都有一個(gè)共同之處,那就是它們并不是真正的 GPU。在英偉達將這個(gè)術(shù)語(yǔ)當作營(yíng)銷(xiāo)工具之前,GPU 這個(gè)縮寫(xiě)代表的是圖形處理單元。AMD 的 MI250X 根本沒(méi)有光柵輸出單元(ROPs),即使是 GH100 在 Direct3D 性能方面也只類(lèi)似于 GeForce GTX 1050,使得 GPU 中的「G」變得無(wú)關(guān)緊要。

那么,我們還能稱(chēng)呼它們?yōu)槭裁茨兀?/span>

「GPGPU」并不理想,因為它表述得較笨拙,是指在通用計算中使用 GPU,并非指設備本身。"HPCU"(高性能計算單元)也好不到哪去。但也許這并不是很重要。

畢竟,「CPU」這個(gè)術(shù)語(yǔ)相當寬泛,涵蓋了各種不同類(lèi)型的處理器和用途。

下一個(gè) GPU 征服的領(lǐng)域是什么?

隨著(zhù)英偉達、AMD、蘋(píng)果、英特爾以及其他數十家公司投入數十億美元進(jìn)行 GPU 研究和開(kāi)發(fā),現今的圖形處理器短時(shí)間內不太可能被截然不同的技術(shù)所替代。

對于渲染,最新的 API 和使用它們的軟件包(如游戲引擎和 CAD 應用程序)通常對運行代碼的硬件并不挑剔。因此,從理論上講,它們可以很容易地適應一種全新的硬件設備。

然而,在 GPU 中只有相對較少的部件專(zhuān)門(mén)用于圖形處理,其中最明顯的是三角形設置引擎、光柵化操作處理器(ROPs),以及在最近的版本中,高度專(zhuān)用的光線(xiàn)追蹤單元。然而,其余部分基本上是一個(gè)大規模并行的 SIMD 芯片,由強大且復雜的存儲器/緩存系統支持。

基本設計已經(jīng)非常成熟,未來(lái)的提升主要依賴(lài)于半導體制造技術(shù)的進(jìn)步。換句話(huà)說(shuō),它們只能通過(guò)增加更多邏輯單元、提高時(shí)鐘速度或二者結合來(lái)實(shí)現進(jìn)一步的優(yōu)化。

當然,可以將新功能整合到 GPU 中,從而讓它們在更廣泛的場(chǎng)景中發(fā)揮作用。在 GPU 歷史上,這樣的事情已經(jīng)發(fā)生過(guò)多次,而統一著(zhù)色器架構的過(guò)渡尤為重要。雖然專(zhuān)用硬件處理張量或光線(xiàn)追蹤計算更為理想,但現代 GPU 的核心也能夠勝任這些任務(wù),盡管速度較慢。

正因如此,像 AMD MI250 和英偉達 GH100 這樣的產(chǎn)品與其桌面 PC 對應產(chǎn)品有著(zhù)極為相似的外觀(guān),而未來(lái)用于高性能計算和人工智能的設計也很可能會(huì )延續這一趨勢。那么,如果芯片本身并沒(méi)有發(fā)生重大變化,它們的應用領(lǐng)域會(huì )有什么變化呢?

谷歌的 Coral 加速板搭載了兩顆 Edge TPU 芯片

與人工智能相關(guān)的領(lǐng)域實(shí)質(zhì)上都屬于計算領(lǐng)域。在需要執行大量 SIMD 計算的場(chǎng)景下,GPU 很可能會(huì )被用到。雖然現今科學(xué)與工程領(lǐng)域中很多行業(yè)已經(jīng)在利用這些處理器,但未來(lái)我們還可能見(jiàn)證 GPU 衍生品應用的迅猛增長(cháng)。

如今,人們可以購買(mǎi)到配備了專(zhuān)用于加速張量計算的微型芯片的手機。隨著(zhù)像 ChatGPT 這樣的工具在性能和受歡迎程度上的不斷提升,我們將看到更多搭載此類(lèi)硬件的設備。

作為簡(jiǎn)單的圖形處理器,GPU 最初只是為了加速游戲運行而設計,但如今已經(jīng)演變成一種全方位的加速器。它在全球范圍內助力各種工作站、服務(wù)器以及超級計算機的運行。

全球數百萬(wàn)人每天都在使用這些技術(shù)——不僅在我們的電腦、手機、電視和流媒體設備中,還包括在使用整合了語(yǔ)音和圖像識別的服務(wù),以及提供音樂(lè )和視頻推薦的服務(wù)時(shí)。

GPU 的未來(lái)可能是未知領(lǐng)域,但有一點(diǎn)可以肯定:在未來(lái)的幾十年里,圖形處理單元將繼續作為計算和 AI 領(lǐng)域的主導工具。



關(guān)鍵詞: GPU

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>