一覽端到端人臉識別最新進(jìn)展,上大&京東AI研究院綜述被ACM旗艦期刊接收
人臉識別是計算機視覺(jué)(CV)領(lǐng)域中最熱門(mén)和悠久的研究課題之一。本篇綜述全面地回顧了端到端深度學(xué)習人臉識別系統的三個(gè)組成要素,包括人臉檢測、人臉對齊和人臉表征。從最新的算法設計,評估指標,數據集,方法性能比較,現有的挑戰和未來(lái)發(fā)展方向等方面展開(kāi)介紹,同時(shí)討論了不同要素對后續環(huán)節和整體識別系統的影響。通過(guò)該綜述,作者期望讀者能夠認識到各個(gè)要素中值得進(jìn)一步探索的方法,以及如何從頭開(kāi)始選擇合適的方法來(lái)建立一套先進(jìn)的端到端人臉識別系統。該綜述已被 ACM 旗艦期刊 Computing Surveys(IF 10.282)接收。
端到端深度人臉識別系統由三個(gè)關(guān)鍵要素構成:人臉檢測(face detection)、人臉對齊(face alignment)和人臉表征(face representation)。其中,人臉檢測的作用是定位靜止圖像或視頻幀中的人臉位置。然后,人臉對齊將人臉校準到一個(gè)規范的視角,并將人臉圖像裁剪到一個(gè)標準化像素大小。最后,在人臉表征階段,從對齊后的圖像中提取具有鑒別性的特征用于識別。
在實(shí)際應用中,端到端人臉識別系統的性能表現同時(shí)取決于上述三種組成要素,任何一個(gè)環(huán)節出現短板,都會(huì )對端到端系統的識別性能造成不良影響,成為人臉識別系統的瓶頸。為了建立一套先進(jìn)的端到端人臉識別系統,因此有必要理解每個(gè)要素對系統整體的影響,以及各個(gè)要素之間的內在聯(lián)系。
論文地址:https://arxiv.org/pdf/2009.13290.pdf
因此,來(lái)自上海大學(xué)、京東 AI 研究院和瑞爾森大學(xué)的研究者聯(lián)合撰寫(xiě)的這篇綜述具有以下幾項主要貢獻:
系統地調研并回顧了端到端深度人臉識別三個(gè)組成要素的最近進(jìn)展;
從多個(gè)方面介紹了這三個(gè)組成要素: 算法設計、評估指標、數據集和性能比較。并且指出了各個(gè)要素對其后續環(huán)節和整體系統的影響;
分析了每個(gè)要素及其子類(lèi)別現有的挑戰和發(fā)展方向,并從整體系統的角度進(jìn)一步討論了主要的挑戰和未來(lái)趨勢。
下圖 1 為端到端人臉識別系統的流程展示:
下圖 2 介紹了各章節的主要內容,圖中左側部分主要是功能性的介紹,包括參考提供全面介紹和討論的功能內容。右側部分為技術(shù)性的內容,對三個(gè)要素分別進(jìn)行了詳細的分析。
人臉檢測
給定一幅輸入圖像,人臉檢測的目標是找到圖像中所有的人臉,并給出所有人臉的包圍框的坐標和置信度得分。為了讓讀者更好的認識和理解人臉檢測的發(fā)展,研究者從多個(gè)角度對人臉檢測方法進(jìn)行了分類(lèi),包括多階段、單階段、anchor-based、anchor-free、多任務(wù)學(xué)習、CPU 實(shí)時(shí)、面向問(wèn)題等方法,具體分類(lèi)可以參考下表 1。
表 1:深度人臉檢測方法的類(lèi)別
下圖 3 給出了具有代表性的人臉檢測方法的發(fā)展歷程。
圖 3:臉檢測方法的發(fā)展歷程
此外,研究者討論了人臉檢測方法對后續人臉對齊和表征環(huán)節的影響。不精確的檢測框會(huì )導致人臉關(guān)鍵點(diǎn)定位性能下降,使用更魯棒的人臉檢測器能夠進(jìn)一步提升識別性能。相關(guān)實(shí)驗結果如下圖 4 所示。
圖 4:人臉檢測對后續要素的影響
人臉對齊
人臉對齊的目標是將檢測到的人臉校準到一個(gè)規范的標準化視圖,并裁剪為固定圖像尺寸的圖像,這是提高人臉識別性能的必要步驟。人臉對齊方法包括基于關(guān)鍵點(diǎn)對齊和不使用關(guān)鍵點(diǎn)的兩種技術(shù)方案。其中,基于關(guān)鍵點(diǎn)的對齊方法是目前最常用的方案,根據如何獲取關(guān)鍵點(diǎn)可分為坐標點(diǎn)回歸、熱力圖回歸以及 3D 模型擬合三種方法。不使用關(guān)鍵點(diǎn)的人臉對齊方法通過(guò)可學(xué)習的方式直接生成對齊后的人臉圖像,具體分類(lèi)可以參考下表 2。
表 2:人臉對齊方法的類(lèi)別
下圖 5 給出了人臉對齊方法的發(fā)展歷程。
圖 5:人臉對齊方法的發(fā)展歷程
同時(shí),研究者進(jìn)一步討論了五種不同的對齊方法對人臉識別性能的影響。下圖 6 中的實(shí)驗結果表明恰當的對齊策略能夠有利于提升人臉識別性能。
圖 6:合適的對齊策略有利于提升人臉識別性能
人臉表征
人臉表征利用深度卷積神經(jīng)網(wǎng)絡(luò )模型從預處理后的人臉圖像中提取具有身份判別力的特征,這些特征用于計算匹配人臉之間的相似度。我們從網(wǎng)絡(luò )模型架構,訓練監督,以及具體的識別任務(wù)三個(gè)方面對人臉表征分別進(jìn)行介紹,方法的具體分類(lèi)可參考下表 3。
表 3:人臉表征學(xué)習方法的類(lèi)別
下圖 7 是人臉表征訓練監督方法的發(fā)展歷程,包含了分類(lèi)學(xué)習、特征嵌入、混合方法以及半監督學(xué)習四種方案。
圖 7:人臉表征訓練監督方法
下圖 8 是三種有監督人臉表示學(xué)習方法與公開(kāi)數據集規模的發(fā)布趨勢,其中分類(lèi)學(xué)習是目前主流研究和采用的方法??梢园l(fā)現隨著(zhù)訓練和測試的數據集規模不斷增加,對大規模數據集進(jìn)行閉集分類(lèi)訓練,可以近似模擬人臉識別的開(kāi)集場(chǎng)景。這可能是近年來(lái)基于分類(lèi)的訓練方法得到廣泛研究并占據主導地位的原因。
圖 8:三種監督人臉表示學(xué)習方法與公開(kāi)數據集規模的發(fā)布趨勢
討論和總結
最后,研究者分析了端到端人臉識別系統各個(gè)組成要素現有的問(wèn)題和未來(lái)趨勢,同時(shí)還有三種要素共有的挑戰,以及面向整個(gè)識別系統的角度討論了現有挑戰和發(fā)展方向,如下表 4 所示。
表 4:端到端深度人臉識別系統的主要挑戰
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。