基于偏移學(xué)習的低分辨率人體姿態(tài)估計*
摘要:目前高分辨率人體姿態(tài)估計已經(jīng)非常準確,但是低分辨率人體姿態(tài)估計效果并不理想,主要原因是低分辨率時(shí)模型性能?chē)乐叵陆?,?a class="contentlabel" href="http://dyxdggzs.com/news/listbylabel/label/偏移學(xué)習">偏移學(xué)習是解決模型性能下降的一種有效方法。實(shí)驗表明,本文提出的基于偏移學(xué)習的低分辨率人體姿態(tài)估計算法量化誤差小,準確率高。
本文引用地址:http://dyxdggzs.com/article/202209/438527.htm關(guān)鍵詞:人體姿態(tài)估計;低分辨率;偏移學(xué)習
*基金項目:深圳市科技創(chuàng )新委員會(huì )資助項目(項目編號:JSGG20191129143214333)
人體姿態(tài)估計是人體生成,動(dòng)作識別,行人序列重識別,行人跟蹤和行人目標檢測中最關(guān)鍵的技術(shù)之一。由于受人體的大尺度變換、人體遮擋和拍攝角度等因素干擾,人體姿態(tài)估計充滿(mǎn)挑戰?,F有的人體姿態(tài)估計算法大部分是基于高分辨率的,低分辨率人體姿態(tài)估計研究較少。高分辨率人體姿態(tài)估計計算量大,嚴重阻礙了人體姿態(tài)估計的應用。城市監控多采用遠距離拍攝,獲取的圖像分辨率都比較低,因此低分辨率人體姿態(tài)估計更具有研究和應用價(jià)值。
人體姿態(tài)估計算法主要分三類(lèi):基于坐標的人體姿態(tài)估計算法;基于熱圖的人體姿態(tài)估計算法;基于偏移的人體姿態(tài)估計算法?;谧鴺说娜梭w姿態(tài)估計算法是以人體 2D 圖像作為輸入并學(xué)習人體部位的歸一化坐標,為了提升模型的性能,主要采用級聯(lián)網(wǎng)絡(luò )來(lái)改進(jìn)預測效果,為了提高低分辨率人體姿態(tài)估計的性能,研究還采用了監督學(xué)習和對比學(xué)習的方法,強制讓特征和輸出保持一致性;基于坐標的方法的人體姿態(tài)估計算法模型簡(jiǎn)單,但是模型容易過(guò)擬合,基于熱圖的人體姿態(tài)估計算法剛好可以緩解過(guò)擬合?;跓釄D的人體姿態(tài)估計算法采用隱士人體結構,且用高斯分布對關(guān)鍵點(diǎn)坐標進(jìn)行編碼,不僅可以防止模型過(guò)擬合,而且可以增加容錯能力;但是它容易受到下采樣算子的影響,導致量化誤差增大?;谄茖W(xué)習的人體姿態(tài)估計算法將人體姿態(tài)估計分為部分檢測和偏移回歸任務(wù),明顯減少了量化誤差。本文采用基于偏移學(xué)習的人體姿態(tài)估計算法在低分辨率數據集上減少了量化誤差,提升了準去率。
1 算法
基于偏移學(xué)習的人體姿態(tài)估計算法是從關(guān)鍵點(diǎn)坐標偏移場(chǎng)中提取偏移向量,再將偏移向量反饋到關(guān)鍵點(diǎn)坐標,通過(guò)熱圖回歸和偏移回歸方法來(lái)進(jìn)行最終預測。訓練時(shí),激活區被定義為真實(shí)關(guān)鍵點(diǎn)的中心,通過(guò)激活每個(gè)像素來(lái)實(shí)現正確預測,也就是說(shuō),每個(gè)像素是平等的。測試時(shí),首先用熱圖識別峰值位置,然后檢索偏移量生成輸出。假設偏移損失符合高斯混合模型,為了進(jìn)一步用掩碼來(lái)權衡滅國像素的偏移損失,將偏移學(xué)習和粗略預測相結合。
現有基于偏移學(xué)習的人體姿態(tài)估計多采用二進(jìn)制熱圖來(lái)表示身體關(guān)節的激活區域,活圈區域內的置信度值都是 1,這樣無(wú)法學(xué)習發(fā)哦真實(shí)數據位置和空間的關(guān)系,反應不了較近像素的置信度應該大于較遠像素置信度關(guān)系,因此本文采用高斯分別縮放二進(jìn)制熱圖,并將需要的置信度編碼:
2 實(shí)驗
本實(shí)驗是 COCO 數據集上完成的。COCO 數據集是用于圖像檢測、語(yǔ)義分割、人體姿態(tài)估計最常用的數據集,它包含 220 張有標注的圖像(COCO 數據集超過(guò) 330 張圖像),150 萬(wàn)個(gè)目標,80 個(gè)行人、汽車(chē)、動(dòng)物等目標類(lèi)別,91 種草、墻、天空等材料類(lèi)別,并且每張圖片還包含 5 句圖像描述,最重要的是它包含 250000 個(gè)帶關(guān)鍵點(diǎn)標注的行人。實(shí)驗用平均精度(mean average precision,mAP)和平均召回率(average recall, AR)來(lái)作為評價(jià)指標。實(shí)驗結果如表 1。
從上表可以看出,本文算法在 COCO 數據集上的平均精度和平均召回率明顯優(yōu)于其它算法,說(shuō)明本文提出的基于偏移學(xué)習的低分辨率人體姿態(tài)估計算法在低分辨率人體姿態(tài)估計上是有效的。
3 結語(yǔ)
本文提出的基于偏移學(xué)習的低分辨率人體姿態(tài)估計算法,在低分辨率人體姿態(tài)估計時(shí),將人體姿態(tài)估計分為部分檢測和偏移回歸任務(wù),明顯減少了量化誤差,提升了準確率。
參考文獻:
[1] ZHANG Y, HASSAN M, NEUMANN H, et al. Generating 3d people in scenes without people[C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:6193-6203.
[2] HUANG J, ZHU Z, GUO F, et al. Delving into unbiased data processing for human pose estimation[C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:5700-5709.
[3] MA C, RAO Y, CHENG Y, et al. Structure-preserving super resolution with gradient guidance [C].2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:7766-7775.
[4] FENG Z, XIATIAN Z, HANBIN D, et al. Distributionaware coordinate representation for human pose estimation[C]. 2020 IEEE Conference on Computer Vision and Pattern Recognition,2020:7091-7100.
[5] QIAN X, FU Y, XIANG T, et al. Pose normalized image generation for person re-identification[C].2018 European Conference on Computer Vision,2018:661-678.
[6] CHEN Y, WANG Z, PENG Y, et al. Cascaded pyramid network for multi-person pose estimation[C].2018 IEEE Conference on Computer Vision and Pattern Recognition,2018:7103-7112.
[7] SUN K, XIAO B, LIU D et al. Deep high-resolution representation learning for human pose estimation[C].2019 IEEE Conference on Computer Vision and Pattern Recognition,2019:5693-5703.
[8] XIAO B, WU H, WEI Y, et al. Simple baselines for human pose estimation and tracking[C].2018 European Conference on Computer Vision,2018:472-487.
(注:本文轉載自《電子產(chǎn)品世界》雜志2022年9月期)
評論