恐怖谷!哥大華人開(kāi)發(fā)「人臉機器人」,照鏡子自主模仿人類(lèi)表情超逼真
【導讀】OpenAI機器人理解力雖強,卻無(wú)法進(jìn)行非語(yǔ)言交流。最近,哥倫比亞大學(xué)華人團隊打造了全新的機器人Emo,不僅可以提前預測和模擬人類(lèi)表情,還可以進(jìn)行眼神交流。
此前,人形機器人Ameca「大夢(mèng)初醒」的神情,已讓許多人感受到了真正的「恐懼」。
隨著(zhù)ChatGPT橫空出世,得到加持的人形機器人雖擅長(cháng)語(yǔ)言交流,但是在非語(yǔ)言交流,特別是面部表情,還差得很遠。
未來(lái),如果人類(lèi)真的要生活在一個(gè)充滿(mǎn)機器人的世界之中,機器人必須要有像人類(lèi)一樣能自主通過(guò)面部表情獲取人類(lèi)的信任的能力。
顯然,設計一款不僅能做出各種面部表情,還能知道何時(shí)表現的機器人,一直是一項艱巨的任務(wù)。
來(lái)自哥倫比亞大學(xué)工程學(xué)院的創(chuàng )新機器實(shí)驗室,5年來(lái)一直致力于這一挑戰。
最近,研究團隊推出了一款機器人Emo——能夠預測人類(lèi)面部表情,并與人類(lèi)同時(shí)做出表情。
最新研究已發(fā)表在Science子刊上。
論文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724
Emo的自我監督學(xué)習框架,就像人類(lèi)照鏡子來(lái)練習面部表情。
有趣的是,Emo甚至學(xué)會(huì )了在一個(gè)人微笑前840毫秒提前預測,并同時(shí)與人類(lèi)一起微笑。
這種快速及時(shí)的表情回應,能讓人類(lèi)感受到機器人的真誠和被理解的感覺(jué)。
而且,它還可以做出眼神互動(dòng)。
Emo如何能夠做到精準預測人類(lèi)表情?
人機交互革命正來(lái)臨
由Hod Lipson帶領(lǐng)的研究團隊稱(chēng),在開(kāi)發(fā)機器人Emo之前,需要解決兩大挑戰。
首先是硬件方面,如何機械地設計一個(gè)涉及復雜硬件和驅動(dòng)機制,且具有表現力的多功能機器人人臉。
另一方面,就是設計好的機器人臉,需要知道生成哪種表情,讓其看起來(lái)自然、及時(shí)和真實(shí)。
而且更進(jìn)一步,研究小組還希望訓練機器人能夠預測人類(lèi)的面部表情,并與人同時(shí)做出這些表情。
具體來(lái)說(shuō),Emo臉部配備了26個(gè)執行器,可以呈現出多種多樣的微妙面部表情。
在執行器之外,Emo的臉使用了硅膠皮設計,方便快速定制和維護。
為了進(jìn)行更加逼真的互動(dòng),研究人員為機器人的眼睛配備了高分辨率攝像頭。
因此Emo還可以做到眼神交流,這也是非語(yǔ)言交流中重要的一部分。
此外,研究小組還開(kāi)發(fā)了兩個(gè)人工智能模型:一個(gè)是通過(guò)分析目標面部的細微變化來(lái)預測人類(lèi)的面部表情,另一個(gè)使用相應的面部表情生成運動(dòng)指令。
為了訓練機器人如何做出面部表情,研究人員將Emo放在相機前,讓它做隨機的動(dòng)作。
幾個(gè)小時(shí)后,機器人學(xué)會(huì )了他們的面部表情和運動(dòng)指令之間的關(guān)系。
團隊將其稱(chēng)為「自我建?!?,與人類(lèi)想象自己做出特定表情的樣子。
然后,研究小組為Emo播放了人類(lèi)面部表情的視頻,通過(guò)逐幀觀(guān)察并學(xué)習。
經(jīng)過(guò)幾個(gè)小時(shí)的訓練后,Emo可以通過(guò)觀(guān)察人們面部的微小變化,來(lái)預測他們的面部表情。
這項研究主要作者Yuhang Hu表示,「我認為,準確預測人類(lèi)面部表情是人機交互(HRI)的一場(chǎng)革命。傳統上,機器人的設計并不考慮人類(lèi)在交互過(guò)程中的表情」。
「現在,機器人可以整合人類(lèi)的面部表情作為反饋。當機器人與人實(shí)時(shí)進(jìn)行共同表達時(shí),不僅提高了交互質(zhì)量,還有助于在人類(lèi)和機器人之間建立信任。未來(lái),在與機器人互動(dòng)時(shí),它會(huì )像真人一樣,觀(guān)察和解讀你的面部表情」。
接下來(lái),一起看看Emo背后設計的具體細節。
技術(shù)介紹
機械控制結構
Emo 配備了26個(gè)執行器(下圖),提供了更高的面部自由度,可以做出不對稱(chēng)的面部表情。
(1 和 2) 用磁鐵連接的連桿控制眉毛。(3) 上眼瞼。(4) 下眼瞼。(5) 眼球連桿。(6) 眼球框架。(7) 相機
(8至10和13) 口形被動(dòng)連桿機構。(11 和 12)二維五桿機制(2D five-bar mechanism)的連桿。
Emo設計的主要區別之一是使用直接連接的磁鐵來(lái)使可更換的面部皮膚變形。這種方法可以更精確地控制面部表情。
此外,Emo的眼睛內嵌攝像頭,可實(shí)現仿人視覺(jué)感知。
這些高分辨率的 RGB(紅、綠、藍)攝像頭,每只眼睛的瞳孔內都有一個(gè),增強了機器人與環(huán)境互動(dòng)的能力,并能更好地預測對話(huà)者的面部表情。
眼睛模塊控制眼球、眉毛和眼瞼的運動(dòng),如上圖所示。
每個(gè)眼框都裝有一個(gè)高分辨率 RGB 攝像頭。眼框分別由兩個(gè)電機通過(guò)平行四邊形機構在俯仰和偏航兩個(gè)軸上驅動(dòng)。
這種設計的優(yōu)點(diǎn)是在眼框中央創(chuàng )造了更多空間,使研究人員能夠將攝像頭模塊安裝在與人類(lèi)瞳孔相對應的自然位置。
這種設計有利于機器人與人類(lèi)進(jìn)行更自然的面對面互動(dòng)。
它還能實(shí)現正確自然的注視,這是近距離非語(yǔ)言交流的一個(gè)關(guān)鍵元素。
除了這些硬件升級外,研究人員還引入了一個(gè)由兩個(gè)神經(jīng)網(wǎng)絡(luò )組成的學(xué)習框架——一個(gè)用于預測Emo自身的面部表情(自我模型),另一個(gè)用于預測對話(huà)者的面部表情(對話(huà)者模型)。
研究人員的軟皮人臉機器人有23個(gè)專(zhuān)用于控制面部表情的電機和3個(gè)用于頸部運動(dòng)的電機。
整個(gè)面部皮膚由硅膠制成,并用30塊磁鐵固定在機器人面部之上。
機器人面部皮膚可以更換成其他設計,以獲得不同的外觀(guān)和皮膚材質(zhì)。
研究人員還提出了一個(gè)升級版逆向模型,可使機器人在相同的計算硬件上生成電機指令的速度比上一代產(chǎn)品快五倍以上。
他們提出了一種自我監督學(xué)習過(guò)程,以訓練研究人員的面部機器人在沒(méi)有明確的動(dòng)作編排和人類(lèi)標簽的情況下生成人類(lèi)面部表情。
控制機器人的傳統方法依賴(lài)于運動(dòng)學(xué)方程和模擬,但這只適用于具有已知運動(dòng)學(xué)的剛體機器人。
機器人有柔軟的可變形皮膚和幾個(gè)帶有四個(gè)套筒關(guān)節的被動(dòng)機構,因此很難獲得機器人運動(dòng)學(xué)的運動(dòng)方程。
研究人員利用基于視覺(jué)的自我監督學(xué)習方法克服了這一難題,在這種方法中,機器人可以通過(guò)觀(guān)察鏡子中的自己來(lái)學(xué)習運動(dòng)指令與所產(chǎn)生的面部表情之間的關(guān)系。
機器人的面部表情由19個(gè)電機控制,其中18個(gè)電機對稱(chēng)分布,一個(gè)電機控制下頜運動(dòng)。
在研究人員的案例中,面部數據集中的表情都是對稱(chēng)的;
因此,對稱(chēng)分布的電機在控制機器人時(shí)可以共享相同的電機指令。
因此,實(shí)際的控制指令只需要11個(gè)歸一化為 [0, 1] 范圍的參數。
面部反演模型是利用機器人自身生成的數據集(下圖)進(jìn)行訓練的,其中包括電機指令和由此產(chǎn)生的面部地標。
研究人員以自我監督的方式,通過(guò)隨機的 「電機咿呀學(xué)語(yǔ) 」過(guò)程收集數據。在將指令發(fā)送到控制器之前,該過(guò)程會(huì )自動(dòng)刪除可能會(huì )撕裂面部皮膚或導致自碰撞的電機指令。
在伺服電機到達指令定義的目標位置后,研究人員使用RGB攝像頭捕捉機器人的面部圖像,并提取機器人的面部地標。
通過(guò)將自我模型和預測對話(huà)者模型相結合,機器人可以執行協(xié)同表達。
表情預測模型研究人員還開(kāi)發(fā)了一個(gè)預測模型,它可以實(shí)時(shí)預測對話(huà)者的目標面部表情。
為使機器人能及時(shí)做出真實(shí)的面部表情,它必須提前預測面部表情,使其機械裝置有足夠的時(shí)間啟動(dòng)。
為此,研究人員開(kāi)發(fā)了一個(gè)預測面部表情模型,并使用人類(lèi)表情視頻數據集對其進(jìn)行了訓練。該模型能夠根據一個(gè)人面部的初始和細微變化,預測其將要做出的目標表情。
首先,研究人員使用每組面部地標與每個(gè)視頻中初始(「靜止」)面部表情的面部地標之間的歐氏距離來(lái)量化面部表情動(dòng)態(tài)。
研究人員將靜止面部地標定義為前五幀的平均地標,目標面部地標則定義為與靜止面部地標差異最大的地標。
靜態(tài)面部地標的歐氏距離與其他幀的地標的歐氏距離會(huì )不斷變化,并且可以區分。
因此,研究人員可以通過(guò)地標距離相對于時(shí)間的二階導數來(lái)計算表情變化的趨勢。
研究人員將表情變化加速度最大時(shí)的視頻幀作為 「激活峰值」。
為了提高準確性并避免過(guò)度擬合,研究人員通過(guò)對周?chē)鷰牟蓸觼?lái)增強每個(gè)數據。
具體來(lái)說(shuō),在訓練過(guò)程中,預測模型的輸入是從峰值激活前后總共九幀圖像中任意抽取四幀圖像。
同樣,標簽也是從目標臉部之后的四幀圖像中隨機取樣的。
數據集共包含45名人類(lèi)參與者和970個(gè)視頻。其中80%的數據用于訓練模型,其余數據用于驗證。
研究人員對整個(gè)數據集進(jìn)行了分析,得出人類(lèi)通常做出面部表情所需的平均時(shí)間為0.841 ± 0.713秒。
預測模型和逆向模型(僅指研究人員論文中使用的神經(jīng)網(wǎng)絡(luò )模型的處理速度)在不帶 GPU 設備的 MacBook Pro 2019上的運行速度分別約為每秒 650 幀(fps)和 8000 幀(fps)。
這一幀頻還不包括數據捕獲或地標提取時(shí)間。
研究人員的機器人可以0.002秒內成功預測目標人類(lèi)面部表情并生成相應的電機指令。這一時(shí)間留給捕捉面部地標和執行電機指令以在實(shí)體機器人面部生成目標面部表情的時(shí)間約為0.839秒。
為了定量評估預測面部表情的準確性,研究人員將研究人員的方法與兩個(gè)基線(xiàn)進(jìn)行了比較。
第一種基線(xiàn)是在逆模型訓練數據集中隨機選擇一張圖片作為預測對象。
該基線(xiàn)的數據集包含大量由咿呀學(xué)語(yǔ)產(chǎn)生的機器人表情圖片。
第二條基線(xiàn)是模仿基線(xiàn),它選擇激活峰值處的面部地標作為預測地標。如果激活峰值接近目標臉部,那么該基線(xiàn)與研究人員的方法相比就很有競爭力。
然而,實(shí)驗結果表明,研究人員的方法優(yōu)于這一基線(xiàn),表明預測模型通過(guò)歸納面部的細微變化,而不是簡(jiǎn)單地復制最后輸入幀中的面部表情,成功地學(xué)會(huì )了預測未來(lái)的目標面部。
圖4B顯示了對預測模型的定量評估。
研究人員計算了預測地標與地面實(shí)況地標之間的平均絕對誤差,地面實(shí)況地標由維度為113×2的人類(lèi)目標面部地標組成。
表格結果(表S2)表明,研究人員的方法優(yōu)于兩種基線(xiàn)方法,表現出更小的平均誤差和更小的標準誤差。
Emo下一步:接入大模型
有了能夠模擬預測人類(lèi)表情的能力之后,Emo研究的下一步便是將語(yǔ)言交流整合到其中,比如接入ChatGPT這樣的大模型。
隨著(zhù)機器人的行為能力越來(lái)越像人類(lèi),團隊也將關(guān)注背后倫理問(wèn)題。
研究人員表示,通過(guò)發(fā)展能夠準確解讀和模仿人類(lèi)表情的機器人,我們正在向機器人可以無(wú)縫地融入我們的日常生活的未來(lái)更近一步,為人類(lèi)提供陪伴、幫助。
想象一下,在這個(gè)世界,與機器人互動(dòng)就像與朋友交談一樣自然和舒適。
作者介紹
Yuhang Hu(胡宇航)是這篇論文的通訊作者。
目前,他是哥倫比亞大學(xué)的博士生,專(zhuān)注于機器人和機器學(xué)習的研究。
最后,一起來(lái)看看Emo的介紹視頻。
來(lái)源:新智元
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。