<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 智能計算 > 進(jìn)階指南 > OpenVINO 101:從圖像識別到視頻識別(上)

OpenVINO 101:從圖像識別到視頻識別(上)

作者: 時(shí)間:2021-09-26 來(lái)源:電子產(chǎn)品世界 收藏

  筆者:梁羽

本文引用地址:http://dyxdggzs.com/article/202109/428499.htm

  計算機視覺(jué)(CV)是人工智能研究的熱點(diǎn)方向之一,其核心在于如何讓機器“看見(jiàn)”和“理解”——通過(guò)算法從照片、視頻等媒介中提取高層次信息并加以利用。

  隨著(zhù)全球計算能力和數據量的雙增長(cháng),計算機視覺(jué)取得了長(cháng)足的進(jìn)展,在自動(dòng)駕駛、智能安防、體育運動(dòng)(如記錄分析運動(dòng)員跑姿就使用了AI助力的人體姿勢估計)等領(lǐng)域遍地開(kāi)花。

1.gif

運動(dòng)生物力學(xué)專(zhuān)家分析蘇炳添訓練時(shí)的跑姿

1632622451963382.jpg

英特爾3DAT技術(shù)1(三維運動(dòng)員跟蹤),基于框架開(kāi)發(fā)

  一般來(lái)說(shuō),常見(jiàn)的計算機視覺(jué)任務(wù)基于靜止的單幀圖像進(jìn)行,主要采用機器學(xué)習深度學(xué)習兩類(lèi)方法。

  在GPU算力足以支持復雜神經(jīng)網(wǎng)絡(luò )之前,機器學(xué)習方法一度是計算機視覺(jué)領(lǐng)域的金標準,作為代表的有用于圖像分類(lèi)的支持向量機(SVM)、用于特征提取的Bag-of-Features模型(SIFT、MSER等)、用于人臉識別的Viola-Jones算法等。這些經(jīng)典算法大多在開(kāi)源計算機視覺(jué)庫OpenCV中有實(shí)現,可以參考網(wǎng)上的入門(mén)資料(比如這篇【OpenCV+Python計算機視覺(jué)導學(xué)】2)進(jìn)行學(xué)習,在此不再展開(kāi)。

  而后,以2015年為界,神經(jīng)網(wǎng)絡(luò )在ImageNet圖片分類(lèi)比賽中超越人類(lèi)水平3,拉開(kāi)了深度學(xué)習在計算機視覺(jué)領(lǐng)域大量應用的序幕?;谏疃葘W(xué)習的圖片識別以卷積神經(jīng)網(wǎng)絡(luò )(CNN)進(jìn)行特征提取、多層感知機(MLP)進(jìn)行分類(lèi),并在其上衍生出了注意力機制、FPN、Transformer、NAS等新架構和研究方法,在計算機視覺(jué)任務(wù)的準確度、運行速度和泛用性上都有很大提升。

3.gif

使用深度學(xué)習進(jìn)行對象檢測/對象跟蹤

  設備算力的增長(cháng)也帶來(lái)了另一個(gè)好處,計算機視覺(jué)學(xué)者們得以將目標從圖片轉向視頻,讓算法端到端地捕捉視頻每一幀之間的關(guān)系。通過(guò)單幀圖像,算法能知道某一瞬間的情況(場(chǎng)景里有哪些物體、戶(hù)外是晴天還是雨天),而基于視頻的識別能夠挖掘出更多信息,例如讓計算機理解一段時(shí)間內發(fā)生的事件:

  圖片識別:“場(chǎng)景里有兩個(gè)運動(dòng)員?!?/em>

  :“場(chǎng)景里的兩個(gè)運動(dòng)員正在打羽毛球?!?/em>

  在開(kāi)始介紹視頻相關(guān)的算法前,我們將先從開(kāi)始,對基于深度學(xué)習的計算機視覺(jué)有些概念上的認識。

主流算法

4.png

典型的圖像分類(lèi)網(wǎng)絡(luò )(VGG-16)

  眾多算法中,圖片分類(lèi)任務(wù)最基礎也最重要:通過(guò)為圖片分類(lèi)任務(wù)訓練神經(jīng)網(wǎng)絡(luò ),可以得到在其他任務(wù)也能使用的主干網(wǎng)絡(luò )(base network/backbone network)。主干網(wǎng)絡(luò )負責從圖像中抽取出高層的抽象特征,基于這些抽象特征可實(shí)現分類(lèi)、檢測、分割等任務(wù)。如上圖架構中輸出224*224*64的卷積層到輸出14*14*512的卷積層就是一種主干網(wǎng)絡(luò )(VGG-16)。

  對神經(jīng)網(wǎng)絡(luò )算法進(jìn)行選型,一般考慮兩組指標:準確率,以及網(wǎng)絡(luò )的參數量(params)浮點(diǎn)運算次數(FLOPs)。準確率是量化算法本身效果的指標,而浮點(diǎn)運算次數和參數量可以被用來(lái)衡量模型的復雜度,前者描述了神經(jīng)網(wǎng)絡(luò )需要的計算能力,后者描述了運行神經(jīng)網(wǎng)絡(luò )需要的內存大?。ㄒ脖砻髁瞬渴鹉P托枰挠脖P(pán)空間/網(wǎng)絡(luò )帶寬)。

  在終端設備部署神經(jīng)網(wǎng)絡(luò )時(shí),不同類(lèi)型的設備(桌面GPU/桌面CPU/Movidus等專(zhuān)用VPU/樹(shù)莓派等ARM架構設備)對復雜度有不同的要求。對于嵌入式設備部署,如一些人臉識別和智慧安防類(lèi)應用,就應選擇盡可能輕量的模型來(lái)達到實(shí)時(shí)處理的目標。其他情況下,就需要因地制宜地在模型準確度和復雜度中取得平衡,挑選最適合自己應用的算法模型。

  實(shí)際使用中,我們都希望使用運算量盡可能小、而準確度盡可能高的神經(jīng)網(wǎng)絡(luò )。為了實(shí)現這堪稱(chēng)刁難的需求,深度學(xué)習學(xué)家們使用了網(wǎng)絡(luò )架構搜索(NAS)技術(shù)來(lái)自動(dòng)化地進(jìn)行神經(jīng)網(wǎng)絡(luò )的設計。

圖片分類(lèi)

1632622619127022.png

常用的主干網(wǎng)絡(luò )模型

(左圖為ImageNet Top-1準確率,右圖為模型準確率/浮點(diǎn)運算數對比)

  具體到圖像識別分類(lèi)任務(wù)所使用的主干網(wǎng)絡(luò )來(lái)看,作為結果之一,Google提出了EfficientNet?,一個(gè)對網(wǎng)絡(luò )準確度和模型復雜度進(jìn)行聯(lián)合優(yōu)化的神經(jīng)網(wǎng)絡(luò )家族。

1632622635580369.png

EfficientNet的模型參數量-準確率對比

  當然,網(wǎng)絡(luò )設計只是第一步,真正要用起來(lái)還有訓練、優(yōu)化部署等步驟。一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò )網(wǎng)絡(luò )的訓練是最為繁瑣的,其中涉及到遠遠大于部署階段的計算能力、大型數據集和超參數調優(yōu),因此對于通用目的的神經(jīng)網(wǎng)絡(luò ),采用公開(kāi)的預訓練模型是最常見(jiàn)的做法。

  對于框架來(lái)說(shuō),預訓練模型和神經(jīng)網(wǎng)絡(luò )的優(yōu)化器都已經(jīng)集成在框架中一起提供,前文提到的EfficientNet和其他主干網(wǎng)絡(luò )的都可以從GitHub上的官方模型庫下載得到。

對象檢測

1632622658825902.png

  目標檢測模型基于主干網(wǎng)絡(luò )提取的特征來(lái)進(jìn)行識別,而根據識別和分類(lèi)物體的內部實(shí)現來(lái)說(shuō),主流對象檢測網(wǎng)絡(luò )可以分成Anchor-based的兩階段檢測器和單階段檢測器,以及Anchor-Free的目標檢測器。

Faster-RCNN(Anchor-based二階段檢測器代表)

1632622676319287.png

Faster-RCNN模型架構圖

  兩階段檢測器由候選區域網(wǎng)絡(luò )(RPN)分類(lèi)器構成。候選區域網(wǎng)絡(luò )基于主干網(wǎng)絡(luò )生成的特征,在圖片中劃分出潛在的感興趣區域(RoI),并將這些其余和先前得到的特征一并送進(jìn)分類(lèi)器,得到每個(gè)候選框的具體分類(lèi)。

  Faster-RCNN以模型的復雜度作為代價(jià),換來(lái)了相對較高的識別準確度。其處理一張圖片需要約200ms(5FPS),離實(shí)時(shí)處理還是有一些距離。

SSD/YOLO(Anchor-based一階段檢測器代表)

1632622696974699.png

YOLO v3模型架構圖

  以YOLO v3為例,輸入的圖片會(huì )先被劃分為數個(gè)單元格,每個(gè)單元格上會(huì )預測出一些識別框和對應的分類(lèi)。在訓練時(shí),YOLO v3會(huì )根據訓練集中檢測框的大小和位置做預先學(xué)習,尋找出最常見(jiàn)的檢測框位置,并根據這些線(xiàn)索來(lái)劃分單元格。

  與Faster-RCNN等二階段檢測器不同,YOLO和SSD會(huì )同時(shí)進(jìn)行候選框和目標分類(lèi)的預測,從而節省了性能開(kāi)銷(xiāo)。一般較小的YOLO模型都可以在30ms內處理完成一張圖片,達到實(shí)時(shí)速度。

Anchor-free檢測器

1632622714678643.png

DETR模型架構圖

  無(wú)論是Anchor-based還是Anchor-free方法,目標檢測器想要解決的核心問(wèn)題都是如何預測檢測框和類(lèi)別。這一類(lèi)的檢測器代表有CenterNet等基于點(diǎn)的方法、FCOS等利用FPN進(jìn)行多尺度預測的模型,以及上圖DETR等基于Transformer的模型。

  因為網(wǎng)絡(luò )結構簡(jiǎn)單,Anchor-free對于工業(yè)應用會(huì )更加友好,而且其網(wǎng)絡(luò )架構上和實(shí)例分割等任務(wù)更接近,有實(shí)現多功能的潛力。

小結

  在這篇文章中,筆者簡(jiǎn)單介紹了圖像識別,以及用深度學(xué)習進(jìn)行計算機視覺(jué)任務(wù)的相關(guān)內容。圖像識別的相關(guān)示例可以參考這篇【開(kāi)發(fā)實(shí)戰課程】中的錄播教程進(jìn)行學(xué)習,注冊eepw賬號后即可獲取~

  下篇中,我們會(huì )關(guān)注視頻理解的相關(guān)算法,以及逐步教學(xué)如何使用OpenVINO進(jìn)行,一定要關(guān)注哦!

參考資料

[1]騰訊網(wǎng),2021/3/17報道,《擺脫傳統監測手段,英特爾3DAT成體育訓練數據分析“神器”》,https://new.qq.com/rain/a/20210317A03E6J00

[2]EEPW論壇,作者zhuzhaokun1987,【原創(chuàng )】【AI人工智能系列】OpenCV+Python計算機視覺(jué)導學(xué)——目錄匯總(點(diǎn)擊目錄可跳轉對應章節,長(cháng)期更新),http://forum.eepw.com.cn/thread/337725/1

[3]微軟亞洲研究院(MSRA)在2015年發(fā)表的工作,作者何愷明等,Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification,https://arxiv.org/pdf/1502.01852.pdf

[4]Google于2019年發(fā)表在ICML上的工作,作者M(jìn)ingxing Tan等,EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks,https://arxiv.org/pdf/1905.11946v5.pdf



關(guān)鍵詞: OpenVINO 圖像識別 視頻識別

評論


相關(guān)推薦

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>