告別視頻通話(huà)“渣畫(huà)質(zhì)”,英偉達新算法最高壓縮90%流量
為了讓網(wǎng)速慢的用戶(hù)用上高清通話(huà),英偉達可謂絞盡腦汁。他們開(kāi)發(fā)的新AI算法,可以將視頻通話(huà)的流量最高壓縮90%以上。
本文引用地址:http://dyxdggzs.com/article/202012/420822.htm
和其他視頻相比,通話(huà)的場(chǎng)景比較單一,基本上只有人的頭部在運動(dòng)。因此只要能把頭像數據大規模壓縮,就能大大節約流量。
英偉達的新算法face vid2vid正是從這一點(diǎn)出發(fā)。只要一張圖片,就能實(shí)現重建各種頭部姿勢圖片。
H.264視頻所需的帶寬是這種新算法的2~12倍,從前面的演示也能看出,如果讓二者使用相同比特率,那么H.264視頻幾乎不可用。
轉動(dòng)面部不扭曲
英偉達提供了一個(gè)試用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滾角)三個(gè)方向上任意旋轉。
輸入一張人臉,最多可以在每個(gè)方向上最多旋轉30度。以下是三個(gè)方向上旋轉到最大角度生成的圖片。
與相比之前的方法,英偉達的這種技術(shù)即使在面部轉動(dòng)幅度較大時(shí),人臉也不會(huì )扭曲變形。
然而,圖片終究是不動(dòng)的,要把生成的人臉?lè )旁谶\動(dòng)的視頻中還要多一個(gè)步驟。
合成面部視頻
我們把上傳的清晰照片作為源圖像,從中獲取外貌特征。然后把視頻中一幀幀畫(huà)面作為重構視頻的依據,從中提取出面部表情和頭部姿勢等信息。
而表情和姿勢這兩個(gè)數據可以通過(guò)關(guān)鍵點(diǎn)進(jìn)行編碼,這樣就分離了人物身份信息和運動(dòng)信息。在傳輸視頻時(shí)只要有運動(dòng)信息即可,從而節約了流量。
從源圖像s中,我們得到了兩組數據:關(guān)鍵點(diǎn)坐標x和雅可比矩陣J。這兩組參數與面部的具體特征無(wú)關(guān),只包含人的幾何特征。
其中,雅可比矩陣表示如何通過(guò)仿射變換將關(guān)鍵點(diǎn)周?chē)木植垦a丁轉換為另一幅圖像中的補丁。如果是恒等雅可比矩陣,則補丁將直接復制并粘貼到新位置。
下圖展示了計算前5個(gè)關(guān)鍵點(diǎn)的流程。給定源圖像以及模型預測的規范關(guān)鍵點(diǎn)。
從運動(dòng)視頻估計的旋轉和平移應用于關(guān)鍵點(diǎn),帶動(dòng)頭部姿勢的變化。然后可以感知表情的變形將關(guān)鍵點(diǎn)調整為目標表情。
接下來(lái)開(kāi)始合成視頻。使用源和運動(dòng)的關(guān)鍵點(diǎn)與其雅可比矩陣來(lái)估計流wk,從生成流組合成掩碼m,將這兩組進(jìn)行線(xiàn)性組合即可產(chǎn)生合成流場(chǎng)w。
接著(zhù)輸入人臉面部特征f,即可生成輸出圖像y。
這種方法不僅能用于視頻通話(huà),也有其他“新玩法”。
比如覺(jué)得人物頭像有點(diǎn)歪,可以手動(dòng)輸入糾正后的數據,從而將面部轉正。
又或者是,把一個(gè)人的面部特征點(diǎn)和雅可比矩陣用于另一個(gè)人,實(shí)現面部視頻動(dòng)作的遷移。
團隊簡(jiǎn)介
這篇文章的第一作者是來(lái)自英偉達的高級研究員Ting-Chun Wang。
文章的通訊作者是英偉達的著(zhù)名研究員劉洺堉。
如果你長(cháng)期關(guān)注CV領(lǐng)域,一定對這兩位作者非常熟悉。他們在圖像風(fēng)格遷移、GAN等方面做出了大量的工作。
△ GauGAN
兩人之前已經(jīng)有過(guò)多次合作。比如。無(wú)監督圖像遷移網(wǎng)絡(luò )(NIPS 2017),還有從涂鴉生成照片的GauGAN(CVPR 2019),都是出自這二位之手。
評論