Nature:強化學習演算法控制核聚變,DeepMind 讓人造太陽向前一大步

機器之心編輯部

過去三年,DeepMind 和瑞士洛桑聯邦理工學院 EPFL 一直在進行一個神秘的項目:用強化學習控制核聚變反應堆內過熱的等離子體,如今它已宣告成功。

DeepMind研究科學家David Pfau在論文發表後感嘆道:「為了分享這個時刻我已經等了很久,這是第一次在核聚變研究設備上進行深度強化學習的演示!」

可控核聚變、強人工智慧、腦機接口是人類科技發展的幾個重要方向,有關它們何時可以實現,科學家們的說法永遠是「還需幾十年」——面臨的挑戰太多,手頭的方法卻很有限。

那麼用人工智慧去控制核聚變,是不是一個有前途的方向?這個問題可能需要由提出 AlphaGo 的 DeepMind 來回答了。

最近,EPFL 和 DeepMind 使用深度強化學習控制託卡馬克裝置等離子體的研究登上了《自然》雜誌。

論文地址:https://www.nature.com/articles/s41586-021-04301-9

首先,我們來思考一個問題:為什麼要用人工智慧控制核聚變?

託卡馬克是一種用於容納核聚變反應的環形容器,其內部呈現出一種特殊的混亂狀態。氫原子在極高的溫度下被擠壓在一起,產生比太陽表面還熱的、旋轉的、翻滾的等離子體。找到控制和限制等離子體的方法將是釋放核聚變潛力的關鍵,而後者被認為是未來幾十年清潔能源的源泉。

在這一點上,科學原理似乎是說得通的,剩下的就是工程挑戰。參與該研究的瑞士等離子體中心(SPC)主任 Ambrogio Fasoli 表示:「我們需要能夠加熱這個裝置,並保持足夠長的時間,以便我們從中吸取能量。」

在同樣由聚變驅動的恆星中,僅依靠引力質量就足以將氫原子拉到一起並克服它們的相反電荷。在地球上,科學家們改為使用強大的磁線圈來限制核聚變反應,將其推到所需的位置。這些線圈必須仔細控制,以防止等離子體接觸容器本身:這會損壞容器壁並減慢聚變反應。

但每次研究人員想要改變等離子體的配置並嘗試不同的形狀,以產生更多的能量或更純淨的等離子體時,都需要大量的工程和設計工作。傳統的系統是由計算機控制的,基於模型和模擬,但 Fasoli 表示傳統方法「複雜且不一定能起到最佳化的作用」。

DeepMind 控制團隊負責人 Martin Riedmiller 表示:「人工智慧,特別是強化學習,特別適合解決託卡馬克中控制等離子體的複雜問題。」DeepMind 在論文中詳細介紹了所提的可以自主控制等離子體的 AI。

技術概覽

技術概覽

DeepMind 提出的模型架構如下圖所示,該方法具有三個階段:

  • 第一階段:設計者為實驗指定目標,可能伴隨著隨時間變化的控制目標;
  • 第二階段:深度 RL 演算法與託卡馬克模擬器互動,以找到接近最優的控制策略來滿足指定目標;
  • 第三階段:以神經網路表示的控制策略直接在託卡馬克硬體上實時運行(零樣本)。

圖 1:控制器設計架構(controller design architecture)的各元件示意圖。

在第一階段,實驗目標由一組目標指定,這些目標包含不同的期望特性。特性範圍包括位置和等離子體電流的基本穩定,以及多個時變目標的複雜組合。然後,這些目標被組合成一個獎勵函數,在每個時間步驟中為狀態分配一個標量質量度量。該獎勵函數還懲罰控制策略,讓其不會達到終端狀態。至關重要的是,精心設計的獎勵函數將被最低限度地指定,從而為學習演算法提供最大的靈活性以達到預期的結果。

在第二階段,高性能 RL 演算法通過與環境互動來收集資料並找到控制策略,如圖 1a、b 所示。該研究使用的模擬器具有足夠的物理保真度來描述等離子體形狀和電流的演變,同時保持足夠低的計算成本來學習。具體來說,該研究基於自由邊界等離子體演化(free-boundary plasma-evolution )模型,對等離子體狀態在極向場線圈電壓的影響下的演化進行建模。

RL 演算法使用收集到的模擬器資料來找到關於指定獎勵函數的最優策略。由於演化等離子體狀態的計算要求,模擬器的資料速率明顯低於典型 RL 環境的資料速率。該研究通過最大後驗策略最佳化 (MPO) 來克服資料不足問題。MPO 支持跨分散式並行流的資料收集,並以高效的方式進行學習。

在第三階段,控制策略與相關的實驗控制目標綁定到一個可執行檔案中,使用量身定製的編譯器(10 kHz 實時控制),最大限度地減少依賴性並消除不必要的計算。這個可執行檔案是由託卡馬克配置變數(TCV)控制框架載入的(圖 1d)。每個實驗都從標準的等離子體形成程序(plasma-formation procedures)開始,其中傳統控制器維持等離子體的位置和總電流。在預定時間裡,稱為「handover」,控制切換到控制策略,然後啟動 19 個 TCV 控制線圈,將等離子體形狀和電流轉換為所需的目標。訓練完成後將不會進一步調整網路權值,換句話說,從模擬到硬體實現了零樣本遷移。

基本功能演示

該研究在 TCV 實驗中展示了所提架構在控制目標上的能力。首先他們展示了對等離子體平衡基本質量的精確控制。控制策略性能如圖 2 所示。所有任務都成功執行,跟蹤精度低於期望的閾值。結果表明 RL 體系架構能夠在放電實驗的所有相關階段進行精確的等離子體控制。

圖 2:等離子體電流、垂直穩定性、位置與形狀控制的演示。

控制演示

接下來,該研究展示了所提架構為科學研究生成複雜配置的能力。結果如圖 3 所示:

圖 3 控制演示

圖 3 控制演示。

全新多域等離子體演示

最後展示了架構在探索全新等離子配置方面的強大功能。DeepMind 測試了「液滴」(droplets)的控制,這是一種在容器內部同時存在兩個獨立等離子體的配置。通過提出的方法,DeepMind 簡單地調整了模擬切換狀態,以考慮來自單軸等離子體的不同切換條件,並定義一個獎勵函數以保持每個液滴元件的位置穩定,同時增加域等離子體電流。

圖 4:整個 200 毫米控制窗口內對 TCV 上兩個獨立液滴的持續控制演示。

未來展望

總而言之,隨著聚變反應堆變得越來越大,與 DeepMind 展開合作或許是最關鍵的。儘管物理學家已經很好地掌握瞭如何通過傳統方法控制小型託卡馬克中的等離子體,但隨著科學家們嘗試令核電站規模的版本可行,挑戰只會更多。該領域正取得緩慢但穩定的進展。

上週,位於英國牛津郡的歐洲聯合環狀反應堆(JET)項目取得了突破,創造了從聚變實驗中提取能量的新紀錄,在 5 秒時間內產生了 59 兆焦耳的能量。與此同時,位於法國的國際熱核聚變實驗反應堆(ITER)國際合作項目正在建設當中,預計將於 2025 年啟動併成為世界上最大的實驗性聚變反應堆。

聖地亞哥能源研究中心的副研究科學家 Dmitri Orlov 表示,「託卡馬克裝置越複雜,性能越高,就越需要通過越來越高的可靠性和準確性來控制更多數量。」AI 控制的託卡馬克裝置可以通過最佳化,以控制熱量從反應中轉移到容器壁上,並防止破壞性的「等離子體不穩定性」。反應堆本身可以重新設計,以利用強化學習所提供的更嚴格控制。

最終,Ambrogio Fasoli 認為,與 DeepMind 的合作可以讓研究人員突破界限,加速通往聚變能量的漫長旅程。人工智慧將賦能我們探索人類無法探索的東西,因為我們可以使用自己不敢冒險的控制系統來達到目標。「如果我們確定自己有一個控制系統,讓我們接近極限但不會超出極限,則實際上可以用來探索那些不存在的可能性。」

參考連結:

https://www.wired.com/story/deepmind-ai-nuclear-fusion/

相關文章

香港宣稱擁抱 Web 3.0

香港宣稱擁抱 Web 3.0

引 香港,請小心 去年10月,香港宣稱擁抱 Web 3.0。 彼時的香港,萬馬齊喑,兩地隔絕。 前途爭議不斷,東方之珠蒙塵。 Web3.0政...

建設 Web3,現在最需要 Web2 的移民?

建設 Web3,現在最需要 Web2 的移民?

Web3 處在「大規模應用」爆發的前夜 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於前...

2023,元宇宙「脫虛向實」

2023,元宇宙「脫虛向實」

在希望與爭議中,元宇宙渡過了關鍵的一年。 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於...