全身追蹤、不怕遮擋,CMU兩位華人做了個(gè)基于WiFi信號的DensePose
用 WiFi 信號進(jìn)行人體姿態(tài)估計并不新鮮,2018 年 MIT CSAIL 的研究者結合使用 WiFi 信號和深度學(xué)習,實(shí)現了隔墻人體姿態(tài)估計。近日,CMU 的研究者僅用 WiFi 信號搞定了遮擋、多人場(chǎng)景中的密集人體姿態(tài)估計。
過(guò)去幾年,在自動(dòng)駕駛和 VR 等應用的推動(dòng)下,使用 2D 和 3D 傳感器(如 RGB 傳感器、LiDARs 或雷達)進(jìn)行人體姿態(tài)估計取得了很大進(jìn)展。但是,這些傳感器在技術(shù)上和實(shí)際使用中都存在一些限制。首先成本高,普通家庭或小企業(yè)往往承擔不起 LiDAR 和雷達傳感器的費用。其次,這些傳感器對于日常和家用而言太過(guò)耗電。
至于 RGB 相機,狹窄的視野和惡劣的照明條件會(huì )對基于相機的方法造成嚴重影響。遮擋成為阻礙基于相機的模型在圖像中生成合理姿態(tài)預測的另一個(gè)障礙。室內場(chǎng)景尤其難搞,家具通常會(huì )擋住人。更重要的是,隱私問(wèn)題阻礙了在非公共場(chǎng)所使用這些技術(shù),很多人不愿意在家中安裝攝像頭記錄自己的行為。但在醫療領(lǐng)域,出于安全、健康等原因,很多老年人有時(shí)不得不在攝像頭和其他傳感器的幫助下進(jìn)行實(shí)時(shí)監控。
近日,CMU 的三位研究者在論文《DensePose From WiFi》中提出,在某些情況下,WiFi 信號可以作為 RGB 圖像的替代來(lái)進(jìn)行人體感知。照明和遮擋對用于室內監控的 WiFi 解決方案影響不大。WiFi 信號有助于保護個(gè)人隱私,所需的相關(guān)設備也能以合理的價(jià)格買(mǎi)到。關(guān)鍵的一點(diǎn)是,很多家庭都安裝了 WiFi,因此這項技術(shù)有可能擴展到監控老年人的健康狀況或者識別家中的可疑行為。
論文地址:https://arxiv.org/pdf/2301.00250.pdf
研究者想要解決的問(wèn)題如下圖 1 第一行所示。給定 3 個(gè) WiFi ****和 3 個(gè)對應的接收器,能否在多人的雜亂環(huán)境中檢測和復原密集人體姿態(tài)對應關(guān)系(圖 1 第四行)?需要注意的是,很多 WiFi 路由器(如 TP-Link AC1750)都有 3 根天線(xiàn),因此本文方法中只需要 2 個(gè)這樣的路由器。每個(gè)路由器的價(jià)格大約是 30 美元,意味著(zhù)整個(gè)設置依然比 LiDAR 和雷達系統便宜得多。
為了實(shí)現如圖 1 第四行的效果,研究者從計算機視覺(jué)的深度學(xué)習架構中獲得靈感,提出了一種可以基于 WiFi 執行密集姿態(tài)估計的神經(jīng)網(wǎng)絡(luò )架構,并實(shí)現了在有遮擋和多人的場(chǎng)景中僅利用 WiFi 信號來(lái)估計密集姿態(tài)。
下圖左為基于圖像的 DensePose,圖右為基于 WiFi 的 DensePose。圖源:推特 @AiBreakfast
另外,值得一提的是,論文一二作均為華人。論文一作 Jiaqi Geng 在去年 8 月取得了 CMU 機器人專(zhuān)業(yè)碩士學(xué)位,二作 Dong Huang 現為 CMU 高級項目科學(xué)家。
方法介紹
想要利用 WiFi 生成人體表面的 UV 坐標需要三個(gè)組件:首先通過(guò)振幅和相位步驟對原始 CSI( Channel-state-information,表示****信號波與接收信號波之間的比值 )信號進(jìn)行清理處理;然后,將處理過(guò)的 CSI 樣本通過(guò)雙分支編碼器 - ****網(wǎng)絡(luò )轉換為 2D 特征圖;接著(zhù)將 2D 特征圖饋送到一個(gè)叫做 DensePose-RCNN 架構中(主要是把 2D 圖像轉換為 3D 人體模型),以估計 UV 圖。
原始 CSI 樣本帶有噪聲(見(jiàn)圖 3 (b)),不僅如此,大多數基于 WiFi 的解決方案都忽略了 CSI 信號相位,而專(zhuān)注于信號的幅度(見(jiàn)圖 3 (a))。然而丟棄相位信息會(huì )對模型性能產(chǎn)生負面影響。因此,該研究執行清理(sanitization)處理以獲得穩定的相位值,從而更好的利用 CSI 信息。
為了從一維 CSI 信號中估計出空間域中的 UV 映射,首先需要將網(wǎng)絡(luò )輸入從 CSI 域轉換到空間域。本文采用 Modality Translation Network 完成(如圖 4)。經(jīng)過(guò)一番操作,就可以得到由 WiFi 信號生成的圖像域中的 3×720×1280 場(chǎng)景表示。
在圖像域中獲得 3×720×1280 場(chǎng)景表示后,該研究采用類(lèi)似于 DensePose-RCNN 的網(wǎng)絡(luò )架構 WiFi-DensePose RCNN 來(lái)預測人體 UV 圖。具體而言,在 WiFi-DensePose RCNN(圖 5)中,該研究使用 ResNet-FPN 作為主干,并從獲得的 3 × 720 × 1280 圖像特征圖中提取空間特征。然后將輸出輸送到區域提議網(wǎng)絡(luò )。為了更好地利用不同來(lái)源的互補信息,WiFi-DensePose RCNN 還包含兩個(gè)分支,DensePose head 和 Keypoint head,之后處理結果被合并輸入到 refinement 單元。
然而從隨機初始化訓練 Modality Translation Network 和 WiFi-DensePose RCNN 網(wǎng)絡(luò )需要大量時(shí)間(大約 80 小時(shí))。為了提高訓練效率,該研究將一個(gè)基于圖像的 DensPose 網(wǎng)絡(luò )遷移到基于 WiFi 的網(wǎng)絡(luò )中(詳見(jiàn)圖 6)。
直接初始化基于 WiFi 的網(wǎng)絡(luò )與基于圖像的網(wǎng)絡(luò )權重無(wú)法工作,因此,該研究首先訓練了一個(gè)基于圖像的 DensePose-RCNN 模型作為教師網(wǎng)絡(luò ),學(xué)生網(wǎng)絡(luò )由 modality translation 網(wǎng)絡(luò )和 WiFi-DensePose RCNN 組成。這樣做的目的是最小化學(xué)生模型與教師模型生成的多層特征圖之間的差異。
實(shí)驗
表 1 結果顯示,基于 WiFi 的方法得到了很高的 AP@50 值,為 87.2,這表明該模型可以有效地檢測出人體 bounding boxes 的大致位置。AP@75 相對較低,值為 35.6,這表明人體細節沒(méi)有得到完美估計。
表 2 結果顯示 dpAP?GPS@50 和 dpAP?GPSm@50 值較高,但 dpAP?GPS@75 和 dpAP?GPSm@75 值較低。這表明本文模型在估計人體軀干的姿勢方面表現良好,但在檢測四肢等細節方面仍然存在困難。
表 3 和表 4 的定量結果顯示,基于圖像的方法比基于 WiFi 的方法產(chǎn)生了非常高的 AP?;?WiFi 的模型 AP-m 值與 AP-l 值的差異相對較小。該研究認為這是因為離相機遠的人在圖像中占據的空間更少,這導致關(guān)于這些對象的信息更少。相反,WiFi 信號包含了整個(gè)場(chǎng)景中的所有信息,而不管拍攝對象的位置。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。