<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > CPU、GPU 和 TPU有什么區別？TPU為什能碾壓GPU?

CPU、GPU 和 TPU有什么區別？TPU為什能碾壓GPU?

作者：時(shí)間：2018-09-10 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　很多讀者可能分不清楚 CPU、GPU 和 TPU 之間的區別，因此 Google Cloud 將在這篇博客中簡(jiǎn)要介紹它們之間的區別，并討論為什么 TPU 能加速深度學(xué)習。

本文引用地址：http://dyxdggzs.com/article/201809/391689.htm

　　張量處理單元(TPU)是一種定制化的 ASIC 芯片，它由谷歌從頭設計，并專(zhuān)門(mén)用于機器學(xué)習工作負載。TPU 為谷歌的主要產(chǎn)品提供了計算支持，包括翻譯、照片、搜索助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴展的云計算資源，并為所有在 Google Cloud 上運行尖端 ML 模型的開(kāi)發(fā)者與數據科學(xué)家提供計算資源。在 Google Next’18 中，我們宣布 TPU v2 現在已經(jīng)得到用戶(hù)的廣泛使用，包括那些免費試用用戶(hù)，而 TPU v3 目前已經(jīng)發(fā)布了內部測試版。

　　第三代 Cloud TPU

　　如上為 tpudemo.com 截圖，該網(wǎng)站 PPT 解釋了 TPU 的特性與定義。在本文中，我們將關(guān)注 TPU 某些特定的屬性。

　　神經(jīng)網(wǎng)絡(luò )如何運算

　　在我們對比 CPU、GPU 和 TPU 之前，我們可以先了解到底機器學(xué)習或神經(jīng)網(wǎng)絡(luò )需要什么樣的計算。如下所示，假設我們使用單層神經(jīng)網(wǎng)絡(luò )識別手寫(xiě)數字。

　　如果圖像為 28×28 像素的灰度圖，那么它可以轉化為包含 784 個(gè)元素的向量。神經(jīng)元會(huì )接收所有 784 個(gè)值，并將它們與參數值(上圖紅線(xiàn))相乘，因此才能識別為「8」。其中參數值的作用類(lèi)似于用「濾波器」從數據中抽取特征，因而能計算輸入圖像與「8」之間的相似性：

　　這是對神經(jīng)網(wǎng)絡(luò )做數據分類(lèi)最基礎的解釋?zhuān)磳祿c對應的參數相乘(上圖兩種顏色的點(diǎn))，并將它們加在一起(上圖右側收集計算結果)。如果我們能得到最高的預測值，那么我們會(huì )發(fā)現輸入數據與對應參數非常匹配，這也就最可能是正確的答案。

　　簡(jiǎn)單而言，神經(jīng)網(wǎng)絡(luò )在數據和參數之間需要執行大量的乘法和加法。我們通常會(huì )將這些乘法與加法組合為矩陣運算，這在我們大學(xué)的線(xiàn)性代數中會(huì )提到。所以關(guān)鍵點(diǎn)是我們該如何快速執行大型矩陣運算，同時(shí)還需要更小的能耗。

　　CPU 如何運行

　　因此 CPU 如何來(lái)執行這樣的大型矩陣運算任務(wù)呢?一般 CPU 是基于馮諾依曼架構的通用處理器，這意味著(zhù) CPU 與軟件和內存的運行方式如下：

　　CPU 如何運行：該動(dòng)圖僅展示了概念性原理，并不反映 CPU 的實(shí)際運算行為。

　　CPU 最大的優(yōu)勢是靈活性。通過(guò)馮諾依曼架構，我們可以為數百萬(wàn)的不同應用加載任何軟件。我們可以使用 CPU 處理文字、控制火箭引擎、執行銀行交易或者使用神經(jīng)網(wǎng)絡(luò )分類(lèi)圖像。

　　但是，由于 CPU 非常靈活，硬件無(wú)法一直了解下一個(gè)計算是什么，直到它讀取了軟件的下一個(gè)指令。CPU 必須在內部將每次計算的結果保存到內存中(也被稱(chēng)為寄存器或 L1 緩存)。內存訪(fǎng)問(wèn)成為 CPU 架構的不足，被稱(chēng)為馮諾依曼瓶頸。雖然神經(jīng)網(wǎng)絡(luò )的大規模運算中的每一步都是完全可預測的，每一個(gè) CPU 的算術(shù)邏輯單元(ALU，控制乘法器和加法器的組件)都只能一個(gè)接一個(gè)地執行它們，每一次都需要訪(fǎng)問(wèn)內存，限制了總體吞吐量，并需要大量的能耗。

　　GPU 如何工作

　　為了獲得比 CPU 更高的吞吐量，GPU 使用一種簡(jiǎn)單的策略：在單個(gè)處理器中使用成千上萬(wàn)個(gè) ALU?，F代 GPU 通常在單個(gè)處理器中擁有 2500-5000 個(gè) ALU，意味著(zhù)你可以同時(shí)執行數千次乘法和加法運算。

　　GPU 如何工作：這個(gè)動(dòng)畫(huà)僅用于概念展示。并不反映真實(shí)處理器的實(shí)際工作方式。

　　這種 GPU 架構在有大量并行化的應用中工作得很好，例如在神經(jīng)網(wǎng)絡(luò )中的矩陣乘法。實(shí)際上，相比 CPU，GPU 在深度學(xué)習的典型訓練工作負載中能實(shí)現高幾個(gè)數量級的吞吐量。這正是為什么 GPU 是深度學(xué)習中最受歡迎的處理器架構。

　　但是，GPU 仍然是一種通用的處理器，必須支持幾百萬(wàn)種不同的應用和軟件。這又把我們帶回到了基礎的問(wèn)題，馮諾依曼瓶頸。在每次幾千個(gè) ALU 的計算中，GPU 都需要訪(fǎng)問(wèn)寄存器或共享內存來(lái)讀取和保存中間計算結果。因為 GPU 在其 ALU 上執行更多的并行計算，它也會(huì )成比例地耗費更多的能量來(lái)訪(fǎng)問(wèn)內存，同時(shí)也因為復雜的線(xiàn)路而增加 GPU 的物理空間占用。

　　TPU 如何工作

　　當谷歌設計 TPU 的時(shí)候，我們構建了一種領(lǐng)域特定的架構。這意味著(zhù)，我們沒(méi)有設計一種通用的處理器，而是專(zhuān)用于神經(jīng)網(wǎng)絡(luò )工作負載的矩陣處理器。TPU 不能運行文本處理軟件、控制火箭引擎或執行銀行業(yè)務(wù)，但它們可以為神經(jīng)網(wǎng)絡(luò )處理大量的乘法和加法運算，同時(shí) TPU 的速度非?？?、能耗非常小且物理空間占用也更小。

　　其主要助因是對馮諾依曼瓶頸的大幅度簡(jiǎn)化。因為該處理器的主要任務(wù)是矩陣處理，TPU 的硬件設計者知道該運算過(guò)程的每個(gè)步驟。因此他們放置了成千上萬(wàn)的乘法器和加法器并將它們直接連接起來(lái)，以構建那些運算符的物理矩陣。這被稱(chēng)作脈動(dòng)陣列(Systolic Array)架構。在 Cloud TPU v2 的例子中，有兩個(gè) 128X128 的脈動(dòng)陣列，在單個(gè)處理器中集成了 32768 個(gè) ALU 的 16 位浮點(diǎn)值。

　　我們來(lái)看看一個(gè)脈動(dòng)陣列如何執行神經(jīng)網(wǎng)絡(luò )計算。首先，TPU 從內存加載參數到乘法器和加法器的矩陣中。

　　然后，TPU 從內存加載數據。當每個(gè)乘法被執行后，其結果將被傳遞到下一個(gè)乘法器，同時(shí)執行加法。因此結果將是所有數據和參數乘積的和。在大量計算和數據傳遞的整個(gè)過(guò)程中，不需要執行任何的內存訪(fǎng)問(wèn)。

　　這就是為什么 TPU 可以在神經(jīng)網(wǎng)絡(luò )運算上達到高計算吞吐量，同時(shí)能耗和物理空間都很小。

　　好處：成本降低至 1/5

　　因此使用 TPU 架構的好處就是：降低成本。以下是截至 2018 年 8 月(寫(xiě)這篇文章的時(shí)候)Cloud TPU v2 的使用價(jià)格。

　　Cloud TPU v2 的價(jià)格，截至 2018 年 8 月。

　　斯坦福大學(xué)發(fā)布了深度學(xué)習和推理的基準套裝 DAWNBench。你可以在上面找到不同的任務(wù)、模型、計算平臺以及各自的基準結果的組合。

　　在 DAWNBench 比賽于 2018 年 4 月結束的時(shí)候，非 TPU 處理器的最低訓練成本是 72.40 美元(使用現場(chǎng)實(shí)例訓練 ResNet-50 達到 93% 準確率)。而使用 Cloud TPU v2 搶占式計價(jià)，你可以在 12.87 美元的價(jià)格完成相同的訓練結果。這僅相當于非 TPU 的不到 1/5 的成本。這正是神經(jīng)網(wǎng)絡(luò )領(lǐng)域特定架構的威力之所在。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： CPU GPU TPU

評論

相關(guān)推薦

感悟設計—讓你的軟件飛起來(lái)

renazan2000 | 2013-05-31

多微機控制的中高速ＶＶＶＦ電梯

資源下載多微機控制 VVVF電梯 NB-CPU BH-CPU | 2007-02-16

IAR通過(guò)Jlink燒錄 Fatal error: Failed to get CPU status after 4 retries

落月風(fēng)情 | 2013-05-21

RTOS和CPU指令設計—uc/os—||| 的啟示

視頻中國芯 RTOS CPU | 2011-01-07

龍芯 3C6000 服務(wù)器 CPU 流片成功：性能達英特爾至強 Silver 4314 水平

網(wǎng)絡(luò )與存儲龍芯中科 CPU | 2024-07-25

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動(dòng)處理 | 2012-12-26

嵌入式CPU的演變和發(fā)展

視頻 MIPS 嵌入式 CPU | 2012-04-28

大嘴業(yè)話(huà)——英偉達宣布進(jìn)軍CPU市場(chǎng)

視頻英偉達 AI CPU | 2023-11-10

MCS-51CPU和存儲器

資源下載單片機 MCS-51 CPU 存儲器 8051 | 2007-02-16

Motorola 68K系列CPU選擇參考文檔

資源下載 Motorola 68K系列 CPU | 2007-02-09

消息稱(chēng)英偉達 RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應緊張

消費電子英偉達 GPU | 2024-07-29

封裝技術(shù)簡(jiǎn)介

設計方案簡(jiǎn)介技術(shù) 封裝芯片面積 CPU | 2012-10-31

51單片機工程應用實(shí)例—單片機的總線(xiàn)擴展

renazan2000 | 2013-06-03

分享2個(gè)JLinK調試中遇到的問(wèn)題

落月風(fēng)情 | 2013-05-27

IC卡座與CPU連接的電路

設計方案電子電路圖，CPU | 2012-07-27

大嘴業(yè)話(huà)：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

康佳T2588E彩電CPU保護電路原理圖

設計方案電子電路圖，康佳 T2588E 彩電 CPU 保護電路原理 | 2012-07-31

教你如何降低CPU散熱風(fēng)扇噪聲

設計方案電子電路圖，CPU 散熱風(fēng)扇 | 2012-08-14

主板電容器的作用與簽別

設計方案作用主板電容電流 CPU 容量 | 2012-10-31

英特爾CPU故障率100％游戲商大崩潰改用AMD

消費電子英特爾 CPU 故障率游戲商 AMD | 2024-07-24

硬件工程師手冊

資源下載華為硬件工程師接口 CPU 單片機 | 2008-01-14

消息稱(chēng)英偉達曾向臺積電詢(xún)問(wèn)建設廠(chǎng)外 CoWoS 先進(jìn)封裝專(zhuān)線(xiàn)可能，遭拒絕

EDA/PCB 英偉達 GPU 封裝工藝臺積電 | 2024-07-23

打破NVIDIA壟斷！英國公司實(shí)現CUDA軟件在A(yíng)MD GPU上無(wú)縫運行

智能計算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

多功能CPU監控器X5045

資源下載 CPU 監控器 X5045 | 2007-02-16

目標完全替代閉源驅動(dòng)，英偉達宣布全面轉向開(kāi)源 GPU 內核模塊

嵌入式系統閉源驅動(dòng) 英偉達開(kāi)源 GPU 內核模塊 Linux | 2024-07-22

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

駿龍科技文章：使用CPU+FLASH+MAX II CPLD遠程配置Cyclone FPGA實(shí)現方案及代碼

叮叮當當 | 2008-01-23

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

Meta訓練Llama 3遭遇頻繁故障

智能計算 Meta Llama 3 英偉達 H100 顯卡 GPU | 2024-07-29

我國研制出世界首個(gè)碳納米管張量處理器芯片

EDA/PCB TPU 碳納米管 | 2024-07-23

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>