微軟發(fā)布生成式AI機器人技術(shù) 實(shí)現自主式互動(dòng)
微軟開(kāi)發(fā)出名為Magma的新型生成式AI,能自主控制機器人并處理其傳感器信息,朝向ChatGPT等AI通過(guò)機器人與現實(shí)世界互動(dòng)的目標邁進(jìn)一大步。
本文引用地址:http://dyxdggzs.com/article/202502/467206.htmMagma可處理文字、圖像和視頻等多模態(tài)數據,并在視覺(jué)空間世界中規劃和行動(dòng),例如執行UI導航或控機器人等任務(wù)。 微軟表示,Magma能有效地從公開(kāi)的視覺(jué)和語(yǔ)言數據中轉移知識,將語(yǔ)言和空間智能結合起來(lái),以應對復雜的任務(wù)。
Magma是從大型語(yǔ)言模型和聊天機器人轉向「AI代理」的趨勢的一部分,AI代理可以代表人類(lèi)執行任務(wù)。 但這項技術(shù)仍存在技術(shù)限制,例如OpenAI最近發(fā)布的AI代理Operator,雖然設計用于瀏覽互聯(lián)網(wǎng)并執行任務(wù),但仍需要大量的人工監督。
盡管如此,根據微軟的測試,Magma AI在UI導航和機器人控任務(wù)上創(chuàng )造了新的最佳結果,表現優(yōu)于專(zhuān)為這些任務(wù)量身定制的先前模型。 微軟發(fā)布的影片顯示,該AI能將塑料蘑菇放入金屬碗中,并將抹布推過(guò)臺面。
除了控機器手臂外,Magma還可以用于通過(guò)實(shí)時(shí)視頻提供協(xié)助,例如在真實(shí)的西洋棋游戲中提供幫助,或在客廳中建議如何放松幾個(gè)小時(shí)。
然而,微軟的研究人員也承認,Magma AI并非完美無(wú)缺。 例如,他們設計的測試都非常具體,而且教學(xué)影片中的身份和活動(dòng)分布并不代表全球人類(lèi)和社會(huì )的多樣性。
透過(guò)微軟Magma的生成式AI技術(shù),自主控制機器人進(jìn)行取拿物品的動(dòng)作。 (來(lái)源:微軟演示視頻)
評論