整個元素週期表通用,AI 即時預測材料結構與特性

材料的性質由其原子排列決定。然而,現有的獲得這種排列的方法要麼過於昂貴,要麼對許多元素無效。

現在,加州大學聖地亞哥分校奈米工程系的研究人員開發了一種人工智慧演算法,可以幾乎即時地預測任何材料(無論是現有材料還是新材料)的結構和動態特性。該演算法被稱為 M3GNet,用於開發 matterverse.ai 資料庫,該資料庫包含超過 3100 萬種尚未合成的材料,其特性由機器學習演算法預測。Matterverse.ai 促進了具有卓越性能的新技術材料的發現。

該研究以「A universal graph deep learning interatomic potential for the periodic table」為題,於 2022 年 11 月 28 日發佈在《Nature Computational Science》上。

論文連結

論文連結:https://www.nature.com/articles/s43588-022-00349-3

對於大規模材料研究,需要根據原子之間的多體相互作用來描述勢能面 (PES) 的高效、線性標度的原子間勢 (IAP)。然而,如今大多數 IAP 都是為範圍很窄的化學物質定製的:通常是單一元素或最多不超過四到五種元素。

最近,PES 的機器學習已成為一種特別有前途的 IAP 開發方法。然而,還沒有研究證明在元素週期表和所有類型的晶體中有一個普遍適用的 IAP。

在過去的十年中,高效、可靠的電子結構程式碼和高通量自動化框架的出現,導致了計算材料資料的大型聯邦資料庫的發展。在進行結構鬆弛過程中積累了大量的 PES 資料,即中間結構及其相應的能量、力和應力,但人們對這些資料關注較少。

「與蛋白質類似,我們需要了解材料的結構才能預測其特性。」 該研究的主要作者 Shyue Ping Ong說。「我們需要的是用於材料的 AlphaFold。」

AlphaFold 是Google DeepMind 開發的一種預測蛋白質結構的人工智慧演算法。為了構建材料的等價物,Ong 和他的團隊將圖神經網路與多體互動(many-body interactions)相結合,構建了一個深度學習架構,該架構可以在元素週期表的所有元素中通用、高精度地工作。

數學圖是晶體和分子的自然表示,節點和邊分別代表原子和它們之間的鍵。傳統的材料圖神經網路模型已被證明對一般材料特性預測非常有效,但由於缺乏物理約束,因此不適合用作 IAP。

研究人員開發了一個明確包含多體相互作用的材料圖架構。模型開發的靈感來自傳統的 IAP,在這項工作中,將重點關注三體互動 (M3GNet) 的整合。

圖 1:多體圖勢和主要的計算塊示意圖。(來源:論文)

IAP 資料集的基準測試

作為初始基準,研究人員擇了 Ong 和同事先前生成的元素能量和力的多樣化 DFT 資料集,用於面心立方(fcc)鎳、fcc 銅、體心立方(bcc)鋰、bcc 鉬、金剛石矽和金剛石鍺。

表 1:M3GNet 模型與現有模型 EAM、MEAM、NNP 和 MTP 在單元素資料集上的誤差比較。(來源:論文)

從表 1 可以看出,M3GNet IAP 大大優於經典的多體勢;它們的性能也與基於本地環境的 ML-IAP 相當。應該注意的是,儘管 ML-IAP 可以實現比 M3GNet IAP 略小的能量和力誤差,但它在處理多元素化學方面的靈活性會大大降低,因為在 ML-IAP 中加入多種元素通常會導致組合爆炸迴歸係數的數量和相應的資料要求。相比之下,M3GNet 架構將每個原子(節點)的元素資訊表示為可學習的嵌入向量。這樣的框架很容易擴展到多組分化學。

與其他 GNN 一樣,M3GNet 框架能夠捕獲長距離的相互作用,而無需增加鍵構建的截止半徑。同時,與之前的 GNN 模型不同,M3GNet 架構仍然隨著鍵數的變化保持能量、力和應力的連續變化,這是 IAP 的關鍵要求。

元素週期表的通用 IAP

為了開發整個元素週期表的 IAP,該團隊使用了世界上最大的 DFT 晶體結構弛豫開放資料庫之一(Materials Project)。

圖 2:MPF.2021.2.8 資料集的分佈。(來源:論文)

原則上,IAP 可以只訓練能量,或者能量和力的組合。在實踐中,僅在能量上訓練的 M3GNet IAP (M3GNet-E) 無法達到預測力或應力的合理精度,平均絕對誤差 (MAE) 甚至大於資料的平均絕對偏差。能量+力(M3GNet- EF)和能量+力+應力(M3GNet-EFS)訓練的 M3GNet 模型獲得了相對相似的能量和力 MAE,但 M3GNet- EFS 的應力 MAE 約為 M3GNet- EF 模型的一半。

對於涉及晶格變化的應用,例如結構鬆弛或 NpT 分子動力學模擬,準確的應力預測是必要的。研究結果表明,在模型訓練中包含所有三個屬性(能量、力和壓力)對於獲得實用的 IAP 至關重要。最終的 M3GNet-EFS IAP(以下簡稱為 M3GNet 模型)實現了每個原子 0.035eV 的平均值,能量、力和壓力測試 MAE 的平均值分別為 0.072eVÅ−1 和 0.41GPa。

圖 3:與 DFT 計算相比,測試資料集上的模型預測。

在測試資料上,模型預測和 DFT ground truth 匹配得很好,正如 DFT 和模型預測之間線性擬合的高線性度和 R2 值所揭示的那樣。模型誤差的累積分佈表明,50% 的資料的能量、力和應力誤差分別小於每個原子 0.01eV、0.033eVÅ−1 和 0.042 GPa。M3GNet 計算的德拜溫度不太準確,這可歸因於 M3GNet 對剪切模量的預測相對較差;然而,體積模量預測是合理的。

然後將 M3GNet IAP 應用於模擬材料發現工作流程,其中最終的 DFT 結構是先驗未知的。M3GNet 鬆弛是對來自 3,140 種材料的測試資料集的初始結構進行的。M3GNet 鬆弛結構的能量計算產生每個原子 0.035 eV 的 MAE,並且 80% 的材料的誤差小於每個原子 0.028 eV。使用 M3GNet 鬆弛結構的誤差分佈接近於所知道 DFT 最終結構的情況,這表明 M3GNet 潛力可以準確地幫助獲得正確的結構。一般來說,M3GNet 的鬆弛會迅速收斂。

圖 4:使用 M3GNet 弛豫晶體結構。(來源:論文)

新材料發現

M3GNet 能準確、快速地弛豫任意晶體結構,並預測它們的能量,使其成為大規模材料發現的理想選擇。研究人員生成了 31,664,858 個候選結構作為起點,使用 M3GNet IAP 鬆弛結構並計算到 Materials Project 凸包 (Ehull-m) 的符號能量距離;1,849,096 種材料的 Ehull-m 每個原子小於 0.01 eV。

作為對 M3GNet 在材料發現方面性能的進一步評估,研究人員計算了發現率,即從約 180 萬 Ehull-m小於 0.001 eV /原子的材料中均勻取樣 1000 個結構的 DFT 穩定材料(Ehull−dft ≤ 0)的比例。發現率保持接近 1.0,達到每個原子約 0.5 eV 的 Ehull-m 閾值,並且在每個原子 0.001 eV 的最嚴格閾值下保持在 0.31 的合理高值。

圖 5:對於 1000 個結構的均勻樣本,DFT 穩定比作為 Ehull−m 閾值的函數。(來源:論文)

對於這個材料集,研究人員還比較了有無 M3GNet 預鬆弛的 DFT 鬆弛時間成本。結果表明,沒有M3GNe t預鬆弛時,DFT 鬆弛時間成本約為 M3GNet 預鬆弛時的 3 倍。

圖 6:使用 M3GNet 預鬆弛的 DFT 加速。(來源:論文)

在今天 matterverse.ai 的 3100 萬種材料中,預計有超過 100 萬種材料具有潛在的穩定性。Ong 和他的團隊不僅打算大大擴展材料的數量,還打算大幅擴展 ML 預測屬性的數量,包括使用他們之前開發的多保真度方法的小資料量的高價值屬性。

除了結構鬆弛,M3GNet IAP 在材料動態模擬和性能預測方面也有廣泛的應用。

「例如,我們通常對鋰離子在鋰離子電池電極或電解質中的擴散速度很感興趣。擴散越快,電池充電或放電的速度就越快,」Ong 說。「我們已經證明,M3GNet IAP 可用於以高精度預測材料的鋰電導率。我們堅信 M3GNet 架構是一種變革性工具,可以極大地擴展我們探索新材料化學和結構的能力。」

為了推廣 M3GNet 的使用,該團隊已將該框架作為開源 Python 程式碼發佈在 Github 上。並計劃將 M3GNet IAP 作為工具集成到商業材料模擬包中。

參考內容:https://techxplore.com/news/2022-11-breakthrough-algorithm-exploration-space-materials.html

相關文章

TikTok 也開始「模仿」了?

TikTok 也開始「模仿」了?

「一直被模仿、從未被超越」的 TikTok,開始學起了更年輕的產品。 作者 | 魚三隹編輯| 鄭玄 「Join me on #TikTokN...

叫停GPT-5,不如叫停馬斯克

叫停GPT-5,不如叫停馬斯克

曾經以為的科幻畫面,在現實世界出現。 人類不能再等了,立即將AI封印6個月。 這不是捏造的小說場景,竟然有很多科學家簽名。 危言聳聽,還是逆...