<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 設計應用 > GPU如何訓練大批量模型？方法在這里

GPU如何訓練大批量模型？方法在這里

作者：時(shí)間：2018-10-22 來(lái)源：網(wǎng)絡(luò )

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

收藏

　　擴展到極致

本文引用地址：http://dyxdggzs.com/article/201810/393173.htm

　　你可以在 GPU 上訓練連一個(gè)樣本都無(wú)法加載的模型嗎?

　　如果你的架構沒(méi)有太多跳過(guò)連接，這就是可能的!解決方案是使用梯度檢查點(diǎn)(gradient-checkpointing)來(lái)節省計算資源。

　　基本思路是沿著(zhù)模型將梯度在小組件中進(jìn)行反向傳播，以額外的前饋傳遞為代價(jià)，節約存儲完整的反向傳播圖的內存。這個(gè)方法比較慢，因為我們需要添加額外的計算來(lái)減少內存要求，但在某些設置中挺有意思，比如在非常長(cháng)的序列上訓練 RNN 模型(示例參見(jiàn) https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a)。

　　這里不再贅述，讀者可以查看以下鏈接：

　　TensorFlow：https://github.com/openai/gradient-checkpointing

　　PyTorch 文檔：https://pytorch.org/docs/stable/checkpoint.html

　　「節約內存」(Memory-poor)策略需要 O(1) 的內存(但是要求 O(n2) 的計算步)。

　　充分利用多 GPU 機器

　　現在我們具體來(lái)看如何在多 GPU 上訓練模型。

　　在多 GPU 服務(wù)器上訓練 PyTorch 模型的首選策略是使用 torch.nn.DataParallel。該容器可以在多個(gè)指定設備上分割輸入，按照批維度(batch dimension)分割，從而實(shí)現模塊應用的并行化。

　　DataParallel 非常容易使用，我們只需添加一行來(lái)封裝模型：

　　parallel_model = torch.nn.DataParallel(model) # Encapsulate the model

　　predictions = parallel_model(inputs) # Forward pass on multi-GPUs

　　loss = loss_function(predictions, labels) # Compute loss function

　　loss.backward() # Backward pass

　　optimizer.step() # Optimizer step

　　predictions = parallel_model(inputs) # Forward pass with new parameters

　　但是，DataParallel 有一個(gè)問(wèn)題：GPU 使用不均衡。

　　在一些設置下，GPU-1 會(huì )比其他 GPU 使用率高得多。

　　這個(gè)問(wèn)題從何而來(lái)呢?下圖很好地解釋了 DataParallel 的行為：

　　使用 torch.nn.DataParallel 的前向和后向傳播。

　　在前向傳播的第四步(右上)，所有并行計算的結果都聚集在 GPU-1 上。這對很多分類(lèi)問(wèn)題來(lái)說(shuō)是件好事，但如果你在大批量上訓練語(yǔ)言模型時(shí)，這就會(huì )成為問(wèn)題。

　　我們可以快速計算語(yǔ)言模型輸出的大?。?/p>

　　語(yǔ)言模型輸出中的元素數量。

　　假設我們的數據集有 4 萬(wàn)詞匯，每一條序列有 250 個(gè) token、每個(gè) batch 中有 32 條序列，那么序列中的每一個(gè)元素需要 4 個(gè)字節的內存空間，模型的輸出大概為 1.2GB。要儲存相關(guān)的梯度張量，我們就需要把這個(gè)內存翻倍，因此我們的模型輸出需要 2.4GB 的內存。

　　這是典型 10GB GPU 內存的主要部分，意味著(zhù)相對于其它 GPU，GPU - 1 會(huì )被過(guò)度使用，從而限制了并行化的效果。

　　如果不調整模型和/或優(yōu)化方案，我們就無(wú)法輕易減少輸出中的元素數量。但我們可以確保內存負載在 GPU 中更均勻地分布。

　　多 GPU 機器上的均衡負載

　　解決辦法是把每部分輸出保留在其 GPU 上，而不是將它們聚集到 GPU-1 上。我們也需要分配損失標準計算，計算損失并進(jìn)行反向傳播。

　　幸而，張航開(kāi)源了一個(gè)名為 PyTorch-Encoding 的 PyTorch 包，它包含了這些定制的并行化功能。

　　我提取并稍稍改動(dòng)了這個(gè)模塊，你可以從以下地址下載 gist(parallel.py)來(lái)納入并調用你的代碼。它主要包括兩個(gè)模塊：DataParallelModel 和 DataParallelCriterion，它們的用途如下：

　　下載地址：https://gist.github.com/thomwolf/7e2407fbd5945f07821adae3d9fd1312

　　from parallel import DataParallelModel, DataParallelCriterion

　　parallel_model = DataParallelModel(model) # Encapsulate the model

　　parallel_loss = DataParallelCriterion(loss_function) # Encapsulate the loss function

　　predictions = parallel_model(inputs) # Parallel forward pass

　　# "predictions" is a tuple of n_gpu tensors

　　loss = parallel_loss(predictions, labels) # Compute loss function in parallel

　　loss.backward() # Backward pass

　　optimizer.step() # Optimizer step

　　predictions = parallel_model(inputs) # Parallel forward pass with new parameters

　　DataParallelModel 和 torch.nn.DataParallel 的區別在于，前向傳播的輸出(predictions)沒(méi)有聚集在 GPU-1 上，而是作為 n_gpu 張量的元組，每個(gè)張量分布在相應的 GPU 上。

　　DataParallelCriterion 容器封裝了損失函數，并把 n_gpu 張量元組和目標標簽張量作為輸入。它在每個(gè) GPU 上并行計算損失函數，像 DataParallel 分割模型輸入一樣分割目標標簽張量。

　　下圖說(shuō)明了 DataParallelModel/DataParallelCriterion 的內部情況：

　　使用 DataParallelModel 和 DataParallelCriterion。

　　以下是你可能會(huì )遇到的兩個(gè)特定案例的解決辦法：

　　你的模型輸出幾個(gè)張量：你可能想分解它們：output_1, output_2 = zip(*predictions)

　　有時(shí)候你并不想使用并行損失函數：收集 CPU 上的所有張量：gathered_predictions = parallel.gather(predictions)

上一頁(yè) 1 2 3 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： GPU Python

評論

相關(guān)推薦

打破NVIDIA壟斷！英國公司實(shí)現CUDA軟件在A(yíng)MD GPU上無(wú)縫運行

智能計算 NVIDIA CUDA軟件 AMD GPU | 2024-07-22

消息稱(chēng)臺積電代工英特爾下代 AI HPC 用 GPU 芯片 Falcon Shores

EDA/PCB 臺積電英特爾 AI HPC GPU 芯片 Falcon Shores | 2024-07-17

大嘴業(yè)話(huà)：A12真的能改變競爭格局么？

視頻 ARM A12 GPU | 2013-06-21

基于GPU的數字圖像并行處理研究

設計方案圖像處理算法并行流處理 GPU | 2015-08-13

消息稱(chēng)英偉達 RTX 4070 及以上顯卡因 GDDR6X 顯存缺貨 8 月供應緊張

消費電子英偉達 GPU | 2024-07-29

簡(jiǎn)明python 教程

資源下載 Python 教程 | 2010-06-30

GPU圖形處理器各大廠(chǎng)家芯片參數介紹

資源下載 GPU 芯片 | 2013-08-30

Imagination：我們的移動(dòng)GPU技術(shù)一騎絕塵

設計方案 Imagination TI GPU | 2015-08-19

LabVIEW和GPU用于實(shí)時(shí)高性能運算系統

資源下載 NI LabVIEW GPU | 2013-03-29

Manpower代招上海 US MNC GPU Physical design technical leader

魔都獵頭招聘 | 2013-07-23

CPU與GPU：誰(shuí)將主導下一次計算革命？

資源下載 CPU GPU 計算革命融合集成 SOC | 2008-05-26

目標完全替代閉源驅動(dòng)，英偉達宣布全面轉向開(kāi)源 GPU 內核模塊

嵌入式系統閉源驅動(dòng) 英偉達開(kāi)源 GPU 內核模塊 Linux | 2024-07-22

Python CMOS傳感器演示

視頻 onsemi Python CMOS傳感器半導體汽車(chē)影像 | 2016-02-19

TPYBoardv102+v202家庭無(wú)線(xiàn)溫濕度檢測

bodasister | 2017-05-21

消息稱(chēng)英偉達曾向臺積電詢(xún)問(wèn)建設廠(chǎng)外 CoWoS 先進(jìn)封裝專(zhuān)線(xiàn)可能，遭拒絕

EDA/PCB 英偉達 GPU 封裝工藝臺積電 | 2024-07-23

【求助】用python寫(xiě)了一個(gè)鬧鐘，在樹(shù)莓派上沒(méi)有聲音

SeeUAgain | 2015-07-22

GPU的形態(tài)已徹底改變，英偉達GTC大會(huì )發(fā)布的到底是什么

視頻英偉達 GPU Blackwell AI GTC | 2024-03-26

基于視覺(jué)的駕駛員輔助嵌入式系統(下)

資源下載 ADAS 嵌入式 GPU | 2014-03-28

談GPU的作用、原理及與CPU、DSP的區別

設計方案 GPU CPU DSP 緩存體系 3 | 2015-08-13

gpu_gpu是什么意思

dolphin | 2014-06-12

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達創(chuàng )造 2100 億美元年收入

智能計算 GB200 AI 英偉達 GPU | 2024-07-26

高通新中端芯片驍龍7s Gen 3曝光：采用Adreno 810 GPU，下月發(fā)布

EDA/PCB 高通中端芯片驍龍7s Gen 3 Adreno 810 GPU | 2024-07-23

什么是 DLSS，值得嗎？

智能計算 DLSS gpu NVIDIA | 2024-07-17

這顆芯片有故事，你有酒嗎？

FPGAwuhan | 2016-08-20

藍牙模塊強化Canvas軟件套件支持，快速構建低功耗藍牙應用

手機與無(wú)線(xiàn)通信藍牙模塊 Canvas Python | 2024-07-18

《E點(diǎn)冷知識》：引發(fā)AI行業(yè)大地震的CUDA究竟有多強大

視頻英偉達 GPU CUDA AI | 2024-03-26

Meta訓練Llama 3遭遇頻繁故障

智能計算 Meta Llama 3 英偉達 H100 顯卡 GPU | 2024-07-29

APU與GPU共進(jìn) AMD搶攻嵌入式應用

設計方案 APU GPU AMD | 2015-08-19

Intel 收購 NVDIA 意欲何為

視頻 Intel NVDIA CPU GPU 移動(dòng)處理 | 2012-12-26

醫療電子平臺選擇:FPGA、ARM、X86、DSP還是GPU分析

設計方案 FPGA ARM DSP GPU X | 2015-08-13

焦點(diǎn)

推薦視頻

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>