解決神經(jīng)網(wǎng)絡(luò )的百年難題,MIT新模型Liquid CfC讓模擬大腦動(dòng)力學(xué)成為可能
隨著(zhù)神經(jīng)元數量的增加,人工智能模型的訓練和計算成本都變得非常高昂。有沒(méi)有一種模型能夠既實(shí)現類(lèi)似于人腦的神經(jīng)模擬,又速度快成本低呢?
在自動(dòng)駕駛等許多重要應用中,數據都是實(shí)時(shí)動(dòng)態(tài)的,并且包含一些意外情況。為了高效應對實(shí)時(shí)數據,去年 MIT 的研究者受生物神經(jīng)元啟發(fā)設計了一種新型「Liquid」神經(jīng)網(wǎng)絡(luò ),其不僅能在訓練階段學(xué)習,而且還能持續不斷地適應。之所以將這種靈活的算法命名為「Liquid」神經(jīng)網(wǎng)絡(luò ),是因為其能像「液體」一樣改變其底層的數學(xué)方程以持續適應新的輸入數據。
我們可以將「liquid」神經(jīng)網(wǎng)絡(luò )理解為是一類(lèi)具有靈活性、魯棒性的機器學(xué)習模型,它可以在工作中學(xué)習,并適應不斷變化的外部條件,可用于駕駛、飛行等安全性至關(guān)重要的任務(wù)。
所謂靈活性,是指「liquid」神經(jīng)網(wǎng)絡(luò )對多種任務(wù)都適合:例如對涉及時(shí)間序列的任務(wù)能夠做出更好的決策,其中包括對大腦和心臟的監測、天氣和股****價(jià)格的預測等。
但隨著(zhù)神經(jīng)元和突觸數量的增加,模型的計算成本劇增,一些復雜的數學(xué)問(wèn)題需要計算大量的步驟才能得到最終的解決方案。高昂的成本成為高性能神經(jīng)網(wǎng)絡(luò )面對的重要挑戰。
現在,MIT 的「liquid」神經(jīng)網(wǎng)絡(luò )團隊發(fā)現了緩解這一瓶頸的方法,即求解兩個(gè)神經(jīng)元通過(guò)突觸相互作用背后的微分方程?;诖?,他們提出了一種快速高效的新型人工智能算法 CfC(closed-form continuous-depth networks),其具有與 liquid 神經(jīng)網(wǎng)絡(luò )相同的特征——靈活性、因果性、魯棒性和可解釋性——但速度更快,且可擴展。
論文地址:https://www.nature.com/articles/s42256-022-00556-7
代碼地址:https://github.com/raminmh/CfC
論文作者之一、MIT 的教授 Daniela Rus 介紹道:「新機器學(xué)習模型 CfC 用一個(gè)閉合的(closed form)近似形式取代了定義神經(jīng)元計算的微分方程,同時(shí)保留了 liquid 網(wǎng)絡(luò )的特性,而不需要數值積分?!笴fC 模型因此具有因果性、緊湊性、可解釋性,并且可以高效地進(jìn)行訓練和預測。
這種 closed-form 的近似方法讓該研究成功求解了描述神經(jīng)元和突觸相互作用的微分方程,而這是自 1907 年以來(lái)首次攻克這一數學(xué)難題,將讓神經(jīng)網(wǎng)絡(luò )的研究獲得質(zhì)的飛躍。論文第一作者、MIT CSAIL 研究科學(xué)家 Ramin Hasani 也在推特上激動(dòng)地發(fā)文稱(chēng)解決了這個(gè)百年難題。
CfC 模型最大的優(yōu)點(diǎn)也是靈活性,可用于需要長(cháng)期洞察數據的任務(wù)。相比于大多數固定的傳統模型,CfC 緊湊且適應性強。
在模型性能方面,CfC 在一系列任務(wù)上都優(yōu)于當前的 SOTA 模型,在通過(guò)運動(dòng)傳感器識別人類(lèi)動(dòng)作、模擬步行機器人的物理動(dòng)力學(xué)建模以及基于事件的序列圖像處理等多個(gè)任務(wù)上都具有更高的處理速度和性能。
下圖是與其他幾種經(jīng)典模型的性能比較結果:
與基于微分方程的對應模型相比,CfC 在訓練和推理方面速度要快 1 到 5 個(gè)數量級。更重要的是,與基于普通微分方程的連續網(wǎng)絡(luò )相比,CfC 可以很好地進(jìn)行擴展。最后,由于 CfC 模型源自 liquid 網(wǎng)絡(luò ),與先進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò )模型相比,CfC 在時(shí)間序列建模方面表現出良好的性能。
微分方程使我們能夠計算事件在演化過(guò)程中的狀態(tài),使用 CfC 神經(jīng)網(wǎng)絡(luò ),人們可以在任意時(shí)間計算這個(gè)方程。由于不需要一步步求解微分方程,因此計算速度也快得多。
想象一下,如果一個(gè)端到端的神經(jīng)網(wǎng)絡(luò )以安裝在汽車(chē)上的攝像頭接收數據作為輸入,以汽車(chē)的轉向角為輸出,那么自動(dòng)駕駛領(lǐng)域的一些問(wèn)題就迎刃而解。
2020 年,MIT 的團隊就通過(guò)使用具有 19 個(gè)節點(diǎn)的「liquid」神經(jīng)網(wǎng)絡(luò )解決了這個(gè)問(wèn)題——以 19 個(gè)神經(jīng)元加上一個(gè)小型感知模塊來(lái)驅動(dòng)汽車(chē)。以少量神經(jīng)元解決復雜問(wèn)題,這意味著(zhù)「liquid」神經(jīng)網(wǎng)絡(luò )會(huì )速度更快,計算成本更低。
從這個(gè)角度講,closed-form 微分方程對推進(jìn)人工智能系統的研究具有深遠的影響?!府斘覀儗ι窠?jīng)元和突觸的通信進(jìn)行 closed-form 的描述時(shí),我們可以構建具有數十億個(gè)細胞的大腦計算模型,由于神經(jīng)科學(xué)模型的計算復雜性很高,這種能力在今天是不可能的。而 closed-form 的方程有助于實(shí)現這種宏大的模擬,為我們理解智能開(kāi)辟了新的研究途徑」,Ramin Hasani 說(shuō)道。
此外,已有研究表明 Liquid CfC 模型可以在一個(gè)環(huán)境中從視覺(jué)輸入中學(xué)習任務(wù),并將其學(xué)到的技能遷移到一個(gè)全新的環(huán)境中,而無(wú)需額外的訓練。這被稱(chēng)為分布外泛化,是人工智能研究最基本的挑戰之一。
我們來(lái)看一下 CfC 在一些具體任務(wù)上的實(shí)驗結果。
在一項醫學(xué)預測任務(wù)中,CfC 在 8000 名患者的樣本中預測速度提高了 220 倍。
在醫學(xué)數據集 PhysioNet 上各模型執行預測任務(wù)的性能。
在情感分析方面,該研究在互聯(lián)網(wǎng)電影數據集 IMDB 上測試了 CfC 模型和其他一些經(jīng)典模型的性能,結果如下:
該研究還讓幾種模型模擬步行機器人的物理動(dòng)力學(xué),其中 CfC 模型的性能顯著(zhù)優(yōu)于其他基線(xiàn)模型:
對于這項解決神經(jīng)網(wǎng)絡(luò )難題的研究,波音子公司 Aurora Flight Sciences 的人工智能和機器學(xué)習小組負責人 Sildomar Monteiro 博士評論道:「近來(lái)神經(jīng)網(wǎng)絡(luò )架構(例如神經(jīng) ODE 和「liquid」神經(jīng)網(wǎng)絡(luò ))具有一種特殊的隱藏層,這種隱藏層由表示無(wú)限潛在狀態(tài)的特定動(dòng)力系統組成。這些隱式定義的模型獲得了 SOTA 性能,并且所需的參數比傳統架構少得多。然而,由于訓練和推理所需的高計算成本,它們的實(shí)際采用受到限制。而 MIT 的新研究顯著(zhù)提高了這類(lèi)神經(jīng)網(wǎng)絡(luò )的計算效率,這將被廣泛應用于與安全有關(guān)的現實(shí)任務(wù)中?!?/span>
參考鏈接:
https://twitter.com/search?q=Ramin%20Hasani&src=typed_query
https://www.csail.mit.edu/news/solving-brain-dynamics-gives-rise-flexible-machine-learning-models
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。