<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 淺談混合精度訓練imagenet

淺談混合精度訓練imagenet

發(fā)布人：計算機視覺(jué)工坊時(shí)間：2021-08-16 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

零、序

本文沒(méi)有任何的原理和解讀，只有一些實(shí)驗的結論，對于想使用混合精度訓練的同學(xué)可以直接參考結論白嫖，或者直接拿github上的代碼(文末放送)。

一、引言

以前做項目的時(shí)候出現過(guò)一個(gè)問(wèn)題，使用FP16訓練的時(shí)候，只要BatchSize增加(LR也對應增加)的時(shí)候訓練，一段時(shí)間后就會(huì )出現loss異常，同時(shí)val對應的明顯降低，甚至直接NAN的情況出現，圖示如下：

這種是比較正常的損失和acc的情況，因為項目的數據非常長(cháng)尾。

訓練

這種就是不正常的訓練情況, val的損失不下降反而上升，acc不升反而降。

訓練異常

還有一種情況，就是訓練十幾個(gè)epoch以后，loss上升到非常大，acc為nan，后續訓練都是nan，tensorboard顯示有點(diǎn)問(wèn)題，只好看ckpt的結果了。

訓練nan

由于以前每周都沒(méi)跑很多模型，問(wèn)題也不是經(jīng)常出現，所以以為是偶然時(shí)間，不過(guò)最近恰好最近要做一些transformer的實(shí)驗，在跑imagenet baseline(R50)的時(shí)候，出現了類(lèi)似的問(wèn)題，由于FP16訓練的時(shí)候，出現了溢出的情況所導致的。簡(jiǎn)單的做了一些實(shí)驗，整理如下。

二、混合精度訓練

混合精度訓練，以pytorch 1.6版本為基礎的話(huà)，大致是有3種方案，依次介紹如下：

模型和輸入輸出直接half，如果有BN，那么BN計算需要轉為FP32精度，我上面的問(wèn)題就是基于此來(lái)訓練的，代碼如下：

  if args.FP16:
        model = model.half()
        for bn in get_bn_modules(model):
            bn.float()
    ...
    for data in dataloader:
        if args.FP16:
            image, label = data[0].half()
            output = model(image)
            losses = criterion(output, label)
        optimizer.zero_grad()
        losses.backward()
        optimizer.step()

使用NVIDIA的Apex庫，這里有O1,O2,O3三種訓練模式，代碼如下：

try:
    from apex import amp 
    from apex.parallel import convert_syncbn_model
    from apex.parallel import DistributedDataParallel as DDP 
except Exception as e:
    print("amp have not been import !!!")
if args.apex:
   model = convert_syncbn_model(model)
if args.apex:
   model, optimizer = amp.initialize(model, optimizer, opt_level=args.mode) 
   model = DDP(model, delay_allreduce=True)
...
for data in dataloader:
    image, label = data[0], data[1]
    batch_output = model(image)
    losses = criterion(batch_output, label)
    optimizer.zero_grad()
    if args.apex:
        with amp.scale_loss(losses, optimizer) as scaled_loss:
            scaled_loss.backward()
        optimizer.step()

pytorch1.6版本以后把apex并入到了自身的庫里面，代碼如下：

from torch.cuda.amp import autocast as autocast
from torch.nn.parallel import DistributedDataParallel as DataParallel
model = DataParallel(model, 
                        device_ids=[args.local_rank], 
                        find_unused_parameters=True)
if args.amp:
        scaler = torch.cuda.amp.GradScaler()
for data in dataloader:
    image, label = data[0], data[1]
    if args.amp:
        with autocast():
            batch_output = model(image)
            losses = criterion(batch_output, label)
    if args.amp:
        scaler.scale(losses).backward()
        scaler.step(optimizer)
        scaler.update()

三、pytorch不同的分布式訓練速度對比

環(huán)境配置如下：

CPU Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz

GPU 8XV100 32G

cuda 10.2

pytorch 1.7.

pytorch分布式有兩種不同的啟動(dòng)方法，一種是單機多卡啟動(dòng)，一種是多機多卡啟動(dòng), ps: DataParallel不是分布式訓練。

多機啟動(dòng)

#!/bin/bash
cd $FOLDER;
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -W ignore -m torch.distributed.launch --nproc_per_node 8 train_lanuch.py \
...

單機啟動(dòng)

cd $FOLDER;

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -W ignore test.py \
--dist-url 'tcp://127.0.0.1:9966' \
--dist-backend 'nccl' \
--multiprocessing-distributed=1 \
--world-size=1 \
--rank=0 \
...

詳細代碼看文末的github鏈接。

實(shí)驗一、num workers對于速度的影響

我的服務(wù)器是48個(gè)物理核心，96個(gè)邏輯核心，所以48的情況下，效果最好，不過(guò)增加和減少對于模型的影響不大，基本上按照CPU的物理核心個(gè)數來(lái)設置就可以。

num workers

BatchSize

FP16

epoch time

實(shí)驗二、OMP和MKL對于速度的影響

OMP和MKL對于多機模式下的速度有輕微的影響，如果不想每個(gè)都去試，直接經(jīng)驗設置為1最合理。FP16大幅度提升模型的訓練速度，可以節省2/5的時(shí)間。

OMP & MKL

num workers

BatchSize

FP16

epoch time

實(shí)驗三、單機和多機啟動(dòng)速度差異

單機和多機啟動(dòng)，對于模型的前向基本是沒(méi)有影響的，主要的差異是在loader開(kāi)始執行的速度，多機比起單機啟動(dòng)要快2倍-5倍左右的時(shí)間。

四、不同混合精度訓練方法對比

實(shí)驗均在ResNet50和imagenet下面進(jìn)行的，LR隨著(zhù)BS變換和線(xiàn)性增長(cháng)，公式如下

實(shí)驗結果

模型FP16+BNFP32實(shí)驗記錄

模型

數據集

batchsize（所有卡的總數）

優(yōu)化器

LearningRate

top1@acc

很明顯可以發(fā)現，單存使用FP16進(jìn)行訓練，但是沒(méi)有loss縮放的情況下，當BS和LR都增大的時(shí)候，訓練是無(wú)法進(jìn)行的，直接原因就是因為L(cháng)R過(guò)大，導致模型更新的時(shí)候數值范圍溢出了，同理loss也就直接為NAN了，我嘗試把LR調小后發(fā)現，模型是可以正常訓練的，只是精度略有所下降。

Apex混合精度實(shí)驗記錄

模型

MODE

數據集

batchsize（所有卡的總數）

優(yōu)化器

LearningRate

top1@acc

Apex O3模式下的訓練情況和上面FP16的結論是一致的，存FP16訓練，不管是否有loss縮放都會(huì )導致訓練NaN，O2和O1是沒(méi)有任何問(wèn)題的，O2的精度略低于O1的精度。

AMP實(shí)驗記錄

模型

MODE

數據集

batchsize（所有卡的總數）

優(yōu)化器

LearningRate

top1@acc

Time

AMP自動(dòng)把模型需要用FP32計算的層或者op直接轉換，不需要顯著(zhù)性指定。精度比apex高，同時(shí)訓練時(shí)間更少。

2-bit訓練，ACTNN

簡(jiǎn)單的嘗試了一下2bit訓練，1k的bs是可以跑的，不過(guò)速度相比FP16跑，慢了太多，基本可以pass掉了。

附上一個(gè)比較合理的收斂情況

正常收斂情況

正常收斂情況2

五、結論

如果使用分布式訓練，使用pytorch 多機模式啟動(dòng)，收益比較高，如果你不希望所有卡都用的話(huà)，那么建議使用單機多卡的模式。

如果使用FP16方式計算的話(huà)，那么無(wú)腦pytorch amp就可以了，速度和精度都比較有優(yōu)勢，代碼量也不多。

我的增強只用了隨機裁剪，水平翻轉，跑了90個(gè)epoch，原版的resnet50是跑了120個(gè)epoch，還有color jitter，imagenet上one crop的結果0.76012，和我的結果相差無(wú)幾，所以分類(lèi)任務(wù)(基本上最后是求概率的問(wèn)題，圖像，視頻都work，已經(jīng)驗證過(guò))上FP16很明顯完全可以替代FP32。我跑了一個(gè)120epoch的版本，結果是0.767，吊打原版本結果了QAQ。

如果跑小的bs，第一種FP16的方法完全是ok的，對于大的bs來(lái)說(shuō)，使用AMP會(huì )使得模型的收斂更加穩定。

代碼在這里，自行取用。

本文僅做學(xué)術(shù)分享，如有侵權，請聯(lián)系刪文。

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

蜂鳴器相關(guān)文章:蜂鳴器原理
電能表相關(guān)文章:電能表原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：算法

相關(guān)推薦

目標跟蹤算法在紅外熱成像跟蹤技術(shù)上的應用

設計方案目標跟蹤算法紅外成像技術(shù)上應用 | 2009-09-03

簡(jiǎn)單實(shí)用的單片機CRC 快速算法

資源下載 CRC 算法單片機 | 2007-02-16

加密算法之MD5算法

資源下載加密算法加密算法 MD5算法 | 2007-02-16

求FSK信號的解調算法，主要是鐵路上的移頻信號!

dhlwq007 | 2004-08-04

SHIPT算法擠壓了外包工人如何對雇主進(jìn)行審計

智能計算 SHIPT 算法算法管理 | 2024-07-04

無(wú)線(xiàn)傳感器網(wǎng)絡(luò )低功耗分簇路由算法設計

設計方案無(wú)線(xiàn) 傳感器網(wǎng)絡(luò ) 功耗路由算法設計 | 2012-09-07

超強整理！電機控制算法

電機算法 BLDC | 2024-05-21

基于LPC2138的血壓測量算法開(kāi)發(fā)平臺電路圖

設計方案基于 LPC2138 血壓測量算法開(kāi)發(fā)平臺電路圖 | 2010-01-20

基于機器視覺(jué)的帶鋼焊縫定位

工控自動(dòng)化卷積神經(jīng)網(wǎng)絡(luò ) 實(shí)例標準化特征提取算法 202212 | 2022-12-25

PID算法

資源下載 PID 算法誤差 | 2007-02-16

“貓和老鼠”的較量軟件破解大揭密（ZT）

武松打虎 | 2004-05-21

PID算法原理介紹

PID 算法工業(yè)控制調節器 | 2023-11-28

計算機科學(xué)與技術(shù)反思錄(2)

liujt_ic | 2003-06-06

CRC算法原理及C語(yǔ)言實(shí)現

資源下載 CRC 算法 C語(yǔ)言 | 2007-02-16

FW-PSO算法支持下無(wú)線(xiàn)傳感網(wǎng)絡(luò )拓撲結構的優(yōu)化策略

物聯(lián)網(wǎng)與傳感器 202302 FW-PSO 網(wǎng)絡(luò )拓撲結構算法優(yōu)化策略抗毀性 | 2023-02-20

蘋(píng)果發(fā)布DeepPCR機器學(xué)習算法：加速神經(jīng)網(wǎng)絡(luò )的推理和訓練

蘋(píng)果 DeepPCR 機器學(xué)習算法神經(jīng)網(wǎng)絡(luò ) | 2023-12-20

數字PID控制及其改進(jìn)算法的應用

設計方案數字控制及其改進(jìn) 算法應用 | 2011-05-11

vxwokrs下靜態(tài)圖像壓縮算法（上）

C-- | 2004-07-26

變步長(cháng)自適應盲源分離算法的設計研究

智能計算 202306 盲源分離算法自適應步長(cháng) 收斂穩態(tài)失調 | 2023-07-07

數字PID控制算法之一

資源下載 PID PID控制算法 | 2007-12-28

單片機ADC常用的十大濾波算法（C語(yǔ)言）

單片機 ADC 濾波算法 C語(yǔ)言 | 2023-05-23

采用Mean-Shift和Camshift算法相結合的火焰視頻圖像跟蹤設計

設計方案采用 Mean-Shift Camshift 算法相結合 | 2011-06-27

單片機的數字濾波算法

嵌入式系統單片機濾波算法數字濾波 | 2023-11-21

[轉帖]us/os就緒表的維護算法分析

amine | 2002-05-17

嵌入式開(kāi)發(fā)者都該了解的十大算法

嵌入式開(kāi)發(fā)者算法 | 2024-07-16

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>