史上首次,強化學(xué)習算法控制核聚變登上Nature:DeepMind讓人造太陽(yáng)向前一大步
過(guò)去三年,DeepMind 和瑞士洛桑聯(lián)邦理工學(xué)院 EPFL 一直在進(jìn)行一個(gè)神秘的項目:用強化學(xué)習控制核聚變反應堆內過(guò)熱的等離子體,如今它已宣告成功。
DeepMind研究科學(xué)家David Pfau在論文發(fā)表后感嘆道:「為了分享這個(gè)時(shí)刻我已經(jīng)等了很久,這是第一次在核聚變研究設備上進(jìn)行深度強化學(xué)習的演示!」
可控核聚變、強人工智能、腦機接口是人類(lèi)科技發(fā)展的幾個(gè)重要方向,有關(guān)它們何時(shí)可以實(shí)現,科學(xué)家們的說(shuō)法永遠是「還需幾十年」——面臨的挑戰太多,手頭的方法卻很有限。
那么用人工智能去控制核聚變,是不是一個(gè)有前途的方向?這個(gè)問(wèn)題可能需要由提出 AlphaGo 的 DeepMind 來(lái)回答了。
最近,EPFL 和 DeepMind 使用深度強化學(xué)習控制托卡馬克裝置等離子體的研究登上了《自然》雜志。
論文地址:https://www.nature.com/articles/s41586-021-04301-9
首先,我們來(lái)思考一個(gè)問(wèn)題:為什么要用人工智能控制核聚變?
托卡馬克是一種用于容納核聚變反應的環(huán)形容器,其內部呈現出一種特殊的混亂狀態(tài)。氫原子在極高的溫度下被擠壓在一起,產(chǎn)生比太陽(yáng)表面還熱的、旋轉的、翻滾的等離子體。找到控制和限制等離子體的方法將是釋放核聚變潛力的關(guān)鍵,而后者被認為是未來(lái)幾十年清潔能源的源泉。
在這一點(diǎn)上,科學(xué)原理似乎是說(shuō)得通的,剩下的就是工程挑戰。參與該研究的瑞士等離子體中心(SPC)主任 Ambrogio Fasoli 表示:「我們需要能夠加熱這個(gè)裝置,并保持足夠長(cháng)的時(shí)間,以便我們從中吸取能量?!?/span>
在同樣由聚變驅動(dòng)的恒星中,僅依靠引力質(zhì)量就足以將氫原子拉到一起并克服它們的相反電荷。在地球上,科學(xué)家們改為使用強大的磁線(xiàn)圈來(lái)限制核聚變反應,將其推到所需的位置。這些線(xiàn)圈必須仔細控制,以防止等離子體接觸容器本身:這會(huì )損壞容器壁并減慢聚變反應。
但每次研究人員想要改變等離子體的配置并嘗試不同的形狀,以產(chǎn)生更多的能量或更純凈的等離子體時(shí),都需要大量的工程和設計工作。傳統的系統是由計算機控制的,基于模型和模擬,但 Fasoli 表示傳統方法「復雜且不一定能起到優(yōu)化的作用」。
DeepMind 控制團隊負責人 Martin Riedmiller 表示:「人工智能,特別是強化學(xué)習,特別適合解決托卡馬克中控制等離子體的復雜問(wèn)題?!笵eepMind 在論文中詳細介紹了所提的可以自主控制等離子體的 AI。
技術(shù)概覽
DeepMind 提出的模型架構如下圖所示,該方法具有三個(gè)階段:
第一階段:設計者為實(shí)驗指定目標,可能伴隨著(zhù)隨時(shí)間變化的控制目標;
第二階段:深度 RL 算法與托卡馬克模擬器交互,以找到接近最優(yōu)的控制策略來(lái)滿(mǎn)足指定目標;
第三階段:以神經(jīng)網(wǎng)絡(luò )表示的控制策略直接在托卡馬克硬件上實(shí)時(shí)運行(零樣本)。
圖 1:控制器設計架構(controller design architecture)的各組件示意圖。
在第一階段,實(shí)驗目標由一組目標指定,這些目標包含不同的期望特性。特性范圍包括位置和等離子體電流的基本穩定,以及多個(gè)時(shí)變目標的復雜組合。然后,這些目標被組合成一個(gè)獎勵函數,在每個(gè)時(shí)間步驟中為狀態(tài)分配一個(gè)標量質(zhì)量度量。該獎勵函數還懲罰控制策略,讓其不會(huì )達到終端狀態(tài)。至關(guān)重要的是,精心設計的獎勵函數將被最低限度地指定,從而為學(xué)習算法提供最大的靈活性以達到預期的結果。
在第二階段,高性能 RL 算法通過(guò)與環(huán)境交互來(lái)收集數據并找到控制策略,如圖 1a、b 所示。該研究使用的模擬器具有足夠的物理保真度來(lái)描述等離子體形狀和電流的演變,同時(shí)保持足夠低的計算成本來(lái)學(xué)習。具體來(lái)說(shuō),該研究基于自由邊界等離子體演化(free-boundary plasma-evolution )模型,對等離子體狀態(tài)在極向場(chǎng)線(xiàn)圈電壓的影響下的演化進(jìn)行建模。
RL 算法使用收集到的模擬器數據來(lái)找到關(guān)于指定獎勵函數的最優(yōu)策略。由于演化等離子體狀態(tài)的計算要求,模擬器的數據速率明顯低于典型 RL 環(huán)境的數據速率。該研究通過(guò)最大后驗策略?xún)?yōu)化 (MPO) 來(lái)克服數據不足問(wèn)題。MPO 支持跨分布式并行流的數據收集,并以高效的方式進(jìn)行學(xué)習。
在第三階段,控制策略與相關(guān)的實(shí)驗控制目標綁定到一個(gè)可執行文件中,使用量身定制的編譯器(10 kHz 實(shí)時(shí)控制),最大限度地減少依賴(lài)性并消除不必要的計算。這個(gè)可執行文件是由托卡馬克配置變量(TCV)控制框架加載的(圖 1d)。每個(gè)實(shí)驗都從標準的等離子體形成程序(plasma-formation procedures)開(kāi)始,其中傳統控制器維持等離子體的位置和總電流。在預定時(shí)間里,稱(chēng)為「handover」,控制切換到控制策略,然后啟動(dòng) 19 個(gè) TCV 控制線(xiàn)圈,將等離子體形狀和電流轉換為所需的目標。訓練完成后將不會(huì )進(jìn)一步調整網(wǎng)絡(luò )權值,換句話(huà)說(shuō),從模擬到硬件實(shí)現了零樣本遷移。
基本功能演示
該研究在 TCV 實(shí)驗中展示了所提架構在控制目標上的能力。首先他們展示了對等離子體平衡基本質(zhì)量的精確控制??刂撇呗孕阅苋鐖D 2 所示。所有任務(wù)都成功執行,跟蹤精度低于期望的閾值。結果表明 RL 體系架構能夠在放電實(shí)驗的所有相關(guān)階段進(jìn)行精確的等離子體控制。
圖 2:等離子體電流、垂直穩定性、位置與形狀控制的演示。
控制演示
接下來(lái),該研究展示了所提架構為科學(xué)研究生成復雜配置的能力。結果如圖 3 所示:
圖 3 控制演示。
全新多域等離子體演示
最后展示了架構在探索全新等離子配置方面的強大功能。DeepMind 測試了「液滴」(droplets)的控制,這是一種在容器內部同時(shí)存在兩個(gè)獨立等離子體的配置。通過(guò)提出的方法,DeepMind 簡(jiǎn)單地調整了模擬切換狀態(tài),以考慮來(lái)自單軸等離子體的不同切換條件,并定義一個(gè)獎勵函數以保持每個(gè)液滴組件的位置穩定,同時(shí)增加域等離子體電流。
圖 4:整個(gè) 200 毫米控制窗口內對 TCV 上兩個(gè)獨立液滴的持續控制演示。
未來(lái)展望
總而言之,隨著(zhù)聚變反應堆變得越來(lái)越大,與 DeepMind 展開(kāi)合作或許是最關(guān)鍵的。盡管物理學(xué)家已經(jīng)很好地掌握了如何通過(guò)傳統方法控制小型托卡馬克中的等離子體,但隨著(zhù)科學(xué)家們嘗試令核電站規模的版本可行,挑戰只會(huì )更多。該領(lǐng)域正取得緩慢但穩定的進(jìn)展。
上周,位于英國牛津郡的歐洲聯(lián)合環(huán)狀反應堆(JET)項目取得了突破,創(chuàng )造了從聚變實(shí)驗中提取能量的新紀錄,在 5 秒時(shí)間內產(chǎn)生了 59 兆焦耳的能量。與此同時(shí),位于法國的國際熱核聚變實(shí)驗反應堆(ITER)國際合作項目正在建設當中,預計將于 2025 年啟動(dòng)并成為世界上最大的實(shí)驗性聚變反應堆。
圣地亞哥能源研究中心的副研究科學(xué)家 Dmitri Orlov 表示,「托卡馬克裝置越復雜,性能越高,就越需要通過(guò)越來(lái)越高的可靠性和準確性來(lái)控制更多數量?!笰I 控制的托卡馬克裝置可以通過(guò)優(yōu)化,以控制熱量從反應中轉移到容器壁上,并防止破壞性的「等離子體不穩定性」。反應堆本身可以重新設計,以利用強化學(xué)習所提供的更嚴格控制。
最終,Ambrogio Fasoli 認為,與 DeepMind 的合作可以讓研究人員突破界限,加速通往聚變能量的漫長(cháng)旅程。人工智能將賦能我們探索人類(lèi)無(wú)法探索的東西,因為我們可以使用自己不敢冒險的控制系統來(lái)達到目標?!溉绻覀兇_定自己有一個(gè)控制系統,讓我們接近極限但不會(huì )超出極限,則實(shí)際上可以用來(lái)探索那些不存在的可能性?!?/span>
參考鏈接:https://www.wired.com/story/deepmind-ai-nuclear-fusion/
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。
可控硅相關(guān)文章:可控硅工作原理
手機電池相關(guān)文章:手機電池修復