<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > GPU如何訓練大批量模型？方法在這里

GPU如何訓練大批量模型？方法在這里

作者：時(shí)間：2018-10-22 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　深度學(xué)習模型和數據集的規模增長(cháng)速度已經(jīng)讓 GPU 算力也開(kāi)始捉襟見(jiàn)肘，如果你的 GPU 連一個(gè)樣本都容不下，你要如何訓練大批量模型?通過(guò)本文介紹的方法，我們可以在訓練批量甚至單個(gè)訓練樣本大于 GPU 內存時(shí)，在單個(gè)或多個(gè) GPU 服務(wù)器上訓練模型。

本文引用地址：http://dyxdggzs.com/article/201810/393173.htm

　　分布式計算

　　2018 年的大部分時(shí)間我都在試圖訓練神經(jīng)網(wǎng)絡(luò )時(shí)克服 GPU 極限。無(wú)論是在含有 1.5 億個(gè)參數的語(yǔ)言模型(如 OpenAI 的大型生成預訓練 Transformer 或最近類(lèi)似的 BERT 模型)還是饋入 3000 萬(wàn)個(gè)元素輸入的元學(xué)習神經(jīng)網(wǎng)絡(luò )(如我們在一篇 ICLR 論文《Meta-Learning a Dynamical Language Model》中提到的模型)，我都只能在 GPU 上處理很少的訓練樣本。

　　但在多數情況下，隨機梯度下降算法需要很大批量才能得出不錯的結果。

　　如果你的 GPU 只能處理很少的樣本，你要如何訓練大批量模型?

　　有幾個(gè)工具、技巧可以幫助你解決上述問(wèn)題。在本文中，我將自己用過(guò)、學(xué)過(guò)的東西整理出來(lái)供大家參考。

　　在這篇文章中，我將主要討論 PyTorch 框架。有部分工具尚未包括在 PyTorch(1.0 版本)中，因此我也寫(xiě)了自定義代碼。

　　我們將著(zhù)重探討以下問(wèn)題：

　　在訓練批量甚至單個(gè)訓練樣本大于 GPU 內存，要如何在單個(gè)或多個(gè) GPU 服務(wù)器上訓練模型;

　　如何盡可能高效地利用多 GPU 機器;

　　在分布式設備上使用多個(gè)機器的最簡(jiǎn)單訓練方法。

　　在一個(gè)或多個(gè) GPU 上訓練大批量模型

　　你建的模型不錯，在這個(gè)簡(jiǎn)潔的任務(wù)中可能成為新的 SOTA，但每次嘗試在一個(gè)批量處理更多樣本時(shí)，你都會(huì )得到一個(gè) CUDA RuntimeError：內存不足。

　　這位網(wǎng)友指出了你的問(wèn)題!

　　但你很確定將批量加倍可以?xún)?yōu)化結果。

　　你要怎么做呢?

　　這個(gè)問(wèn)題有一個(gè)簡(jiǎn)單的解決方法：梯度累積。

　　梯度下降優(yōu)化算法的五個(gè)步驟。

　　與之對等的 PyTorch 代碼也可以寫(xiě)成以下五行：

　　predictions = model(inputs) # Forward pass

　　loss = loss_function(predictions, labels) # Compute loss function

　　loss.backward() # Backward pass

　　optimizer.step() # Optimizer step

　　predictions = model(inputs) # Forward pass with new parameters

　　在 loss.backward() 運算期間，為每個(gè)參數計算梯度，并將其存儲在與每個(gè)參數相關(guān)聯(lián)的張量——parameter.grad 中。

　　累積梯度意味著(zhù)，在調用 optimizer.step() 實(shí)施一步梯度下降之前，我們會(huì )對 parameter.grad 張量中的幾個(gè)反向運算的梯度求和。在 PyTorch 中這一點(diǎn)很容易實(shí)現，因為梯度張量在不調用 model.zero_grad() 或 optimizer.zero_grad() 的情況下不會(huì )重置。如果損失在訓練樣本上要取平均，我們還需要除以累積步驟的數量。

　　以下是使用梯度累積訓練模型的要點(diǎn)。在這個(gè)例子中，我們可以用一個(gè)大于 GPU 最大容量的 accumulation_steps 批量進(jìn)行訓練：

　　model.zero_grad() # Reset gradients tensors

　　for i, (inputs, labels) in enumerate(training_set):

　　predictions = model(inputs) # Forward pass

　　loss = loss_function(predictions, labels) # Compute loss function

　　loss = loss / accumulation_steps # Normalize our loss (if averaged)

　　loss.backward() # Backward pass

　　if (i+1) % accumulation_steps == 0: # Wait for several backward steps

　　optimizer.step() # Now we can do an optimizer step

　　model.zero_grad() # Reset gradients tensors

　　if (i+1) % evaluation_steps == 0: # Evaluate the model when we...

　　evaluate_model() # ...have no gradients accumulated

上一頁(yè) 1 2 3 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： GPU Python

評論

相關(guān)推薦

Python CMOS傳感器演示

視頻 onsemi Python CMOS傳感器半導體汽車(chē)影像 | 2016-02-19

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

Manpower代招上海 US MNC GPU Physical design technical leader

魔都獵頭招聘 | 2013-07-23

消息稱(chēng)英偉達 RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應緊張

消費電子英偉達 GPU | 2024-07-29

APU與GPU共進(jìn) AMD搶攻嵌入式應用

設計方案 APU GPU AMD | 2015-08-19

gpu_gpu是什么意思

dolphin | 2014-06-12

消息稱(chēng)臺積電代工英特爾下代 AI HPC 用 GPU 芯片 Falcon Shores

EDA/PCB 臺積電英特爾 AI HPC GPU 芯片 Falcon Shores | 2024-07-17

簡(jiǎn)明python 教程

資源下載 Python 教程 | 2010-06-30

談GPU的作用、原理及與CPU、DSP的區別

設計方案 GPU CPU DSP 緩存體系 3 | 2015-08-13

LabVIEW和GPU用于實(shí)時(shí)高性能運算系統

資源下載 NI LabVIEW GPU | 2013-03-29

打破NVIDIA壟斷！英國公司實(shí)現CUDA軟件在A(yíng)MD GPU上無(wú)縫運行

智能計算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

Imagination：我們的移動(dòng)GPU技術(shù)一騎絕塵

設計方案 Imagination TI GPU | 2015-08-19

《E點(diǎn)冷知識》：引發(fā)AI行業(yè)大地震的CUDA究竟有多強大

視頻英偉達 GPU CUDA AI | 2024-03-26

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

什么是 DLSS，值得嗎？

智能計算 DLSS gpu NVIDIA | 2024-07-17

GPU的形態(tài)已徹底改變，英偉達GTC大會(huì )發(fā)布的到底是什么

視頻英偉達 GPU Blackwell AI GTC | 2024-03-26

藍牙模塊強化Canvas軟件套件支持，快速構建低功耗藍牙應用

手機與無(wú)線(xiàn)通信藍牙模塊 Canvas Python | 2024-07-18

消息稱(chēng)英偉達曾向臺積電詢(xún)問(wèn)建設廠(chǎng)外 CoWoS 先進(jìn)封裝專(zhuān)線(xiàn)可能，遭拒絕

EDA/PCB 英偉達 GPU 封裝工藝臺積電 | 2024-07-23

Meta訓練Llama 3遭遇頻繁故障

智能計算 Meta Llama 3 英偉達 H100 顯卡 GPU | 2024-07-29

GPU圖形處理器各大廠(chǎng)家芯片參數介紹

資源下載 GPU 芯片 | 2013-08-30

這顆芯片有故事，你有酒嗎？

FPGAwuhan | 2016-08-20

TPYBoardv102+v202家庭無(wú)線(xiàn)溫濕度檢測

bodasister | 2017-05-21

【求助】用python寫(xiě)了一個(gè)鬧鐘，在樹(shù)莓派上沒(méi)有聲音

SeeUAgain | 2015-07-22

大嘴業(yè)話(huà)：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

CPU與GPU：誰(shuí)將主導下一次計算革命？

資源下載 CPU GPU 計算革命融合集成 SOC | 2008-05-26

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動(dòng)處理 | 2012-12-26

基于GPU的數字圖像并行處理研究

設計方案圖像處理算法并行流處理 GPU | 2015-08-13

目標完全替代閉源驅動(dòng)，英偉達宣布全面轉向開(kāi)源 GPU 內核模塊

嵌入式系統閉源驅動(dòng) 英偉達開(kāi)源 GPU 內核模塊 Linux | 2024-07-22

基于視覺(jué)的駕駛員輔助嵌入式系統(下)

資源下載 ADAS 嵌入式 GPU | 2014-03-28

醫療電子平臺選擇:FPGA、ARM、X86、DSP還是GPU分析

設計方案 FPGA ARM DSP GPU X | 2015-08-13

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>