用於化學動力學模擬的原子神經網路表示

機器學習技術已廣泛應用於化學、物理、生物學和材料科學的許多領域。最富有成果的應用之一是從離散量子化學資料中學習勢能或相關電子特性的複雜多維函數。特別是,大量努力致力於開發各種原子神經網路 (AtNN) 表示,這些表示是指將目標物理量表示為由原子 NN 表示的原子分量之和的一系列方法。這類方法不僅完全保留了系統的物理對稱性,而且相對於系統的大小呈線性縮放,從而能夠在複雜系統甚至跨相的多個可變大小系統中進行準確有效的化學動力學和光譜模擬。

在這裡,中國科學技術大學蔣彬教授團隊討論了開發高效和可表示的 AtNN 勢的不同策略,以及推廣這些標量 AtNN 模型以學習具有正確旋轉等方差的向量和張量。研究人員還回顧了生成實用 AtNN 模型的主動學習演算法,並展示了 AtNN 在氣體表面系統中應用的精選示例,以證明它們準確表示分子系統和凝聚相系統的能力。研究人員指出了在更多應用場景中進一步開發更可靠、可轉移和可擴展的 AtNN 表示的眾多挑戰。

該研究以「Atomistic neural network representations for chemical dynamics simulations of molecular, condensed phase, and interfacial systems: Efficiency, representability, and generalization」為題,於 2022 年 11 月 16 日發佈在《WIREs Computational Molecular Science》。

Born-Oppenheimer 近似可以解決靜止原子核的電子薛丁格方程,這構成了量子化學的基礎,自然產生了(絕熱)勢能面 (PES) 的概念。一旦 PES 已知,方程的核運動就可以根據系統的大小在化學動力學模擬中以經典或量子力學的方式求解。解決電子結構問題同樣可以得出系統的其他電子特性,例如電荷密度、偶極矩、極化率以及不同電子態之間的躍遷和耦合量。雖然勢能(和相關特性)可以直接連同分子動力學 (MD) 經典軌跡一起實時計算,但這種從頭算分子動力學 (AIMD) 模擬只能使用廉價的電子結構方法,例如密度泛函理論 (DFT),難以研究稀有事件和長時間事件。此外,這種即時方法通常不適用於量子動力學,因為波包是非局部的。因此,更希望使用足夠準確和有效的表示來替換動力學模擬中任意核位置的從頭算計算,即使對錶示參數化的初始投資可能很大。多年來,開發此類表示一直是原子級化學動力學和光譜模擬的關鍵任務。

獲取 PES 的傳統方法在很大程度上取決於系統大小及其使用目的。對於具有大量自由度 (DOF) 的複雜系統,例如,凝聚相材料和生物分子,PES 需要具有良好的可轉移性和高效率,因此最常使用編碼一些基本量子力學概念的(反應)經驗力場(EFF)。相比之下,對於氣相或氣體表面界面的小型系統,各種線性或非線性擬合/插值方法在儘可能高的水平上忠實地表示從頭算能量方面取得了巨大成功。這些 PES 可用於描述給定系統的特定過程,但通常不能轉移和擴展到其他系統。

在過去的一兩年中,現代機器學習 (ML) 技術徹底改變了在廣泛的系統中開發勢能和其他屬性表示的方式。這種基於神經網路和基於核心的迴歸等方法與那些不依賴物理近似的傳統數學表達式有一些相似之處。但是,前者在高維問題上通常具有更高的靈活性和可擴展性。各種強大的基於 ML 的方法已廣泛應用於小分子和反應、反應散射、激發態、光譜學和擴展系統。一個特別成功的方法家族基於由 Behler 和 Parrinello 開創的原子神經網路 (AtNN) 框架,它可以跨階段對小型和大型系統進行統一表示,並在表示分子特性方面取得重大進展。

圖示:標量(即勢能)的一般 AtNN 架構示意圖。(來源:論文)

在這裡,中科大的研究團隊將回顧了這些 AtNN 模型近年來在物理概念和實際實施中的演變情況。他們論文裡重點關注最近在提高 AtNN 表示的效率、可表示性和泛化方面所做的研究,以及為特定系統構建可用模型的資料取樣方案。討論了在氣體表面系統中選定的 AtNN 應用,展示了它同樣能夠很好地描述分子中的定向相互作用以及凝聚相的更各向同性和週期性相互作用的能力。

圖示:主動學習演算法的通用協議。(來源:論文)

儘管取得了眾多成功,但 AtNN 表示的未來發展仍然面臨一些挑戰。首先,很難兼顧 AtNN 表示的效率和可表示性。雖然基於角度特徵的 MPNN 模型,例如 REANN,可以通過增加訊息傳遞的數量來包含具有線性縮放的高階相關性,但仍有提高其效率的空間。特別是,它的並行化不如傳統的 AtNN 模型有效,因為現在不同的原子特徵是相關的。還提出了更有效的演算法來加速高階互動的直接計算,例如,在 NICE 模型中。更多的數值測試將非常有助於確定實際應用中效率和可表示性之間的最佳平衡。

其次,原子框架本質上依賴於局部近似,通過這種近似,每個原子元件只考慮局部相互作用。由於結合了原子環境內外原子之間的相關性,已經發現 MPNN 模型可以描述一些非局部相互作用。然而,有人認為 MPNN 模型不能像直接增加截止距離那樣有效地描述長程相互作用。此外,在一些特殊的分子中,例如CnH4,長程相互作用衰減非常緩慢,並且任何已發佈的 AtNN 模型似乎都無法捕捉到端氫旋轉時勢能的變化。最近的一項工作表明,可以通過以自我注意的方式傳遞球諧函數來合併非局部幾何校正來克服這個問題。為了改進 AtNN 模型的遠端行為,庫侖相互作用已添加到基於 AtNN 學習的原子電荷的勢能中。此外,還引入了電荷平衡方案來描述遠端電荷轉移。預計將沿著這個方向開展更多工作。

第三,雖然為給定系統建立 AtNN 模型的主動學習協議已經建立,但它們遠不是複雜系統的黑盒工具。在大型系統中,需要更明智的方法來衡量預測方差和整個配置之間的相似性,以實現更好的資料效率。另一方面,添加新點的迭代過程需要重複訓練 AtNN 模型,這成為主動學習演算法的計算瓶頸,需要最小化。此外,儘管一些努力很有希望,但在大型化學空間中從頭收集參考資料以生成一系列不同大小和組成的系統的 AtNN 模型仍然非常具有挑戰性。

最後,將 AtNN 表示進一步推廣到更復雜的場景將很有趣,例如,在存在外部場甚至分子尺度的受限場的情況下。在這種情況下,勢能和相關電子特性將受到額外的對稱性約束。另一方面,通過求解相應的薛丁格方程直接構建電子和核波函數的 AtNN 表示也很有前途。總而言之,有理由期待 AtNN 表示在未來幾十年的各個方面會有更爆炸性的發展。

論文連結:https://wires.onlinelibrary.wiley.com/doi/10.1002/wcms.1645

相關報道:https://phys.org/news/2022-12-breakthroughs-atomistic-neural-network-representations.html

相關文章

三環,不多,不少

三環,不多,不少

幾十年來,天文學家對那些圍繞著恆星(比如太陽)的行星(比如地球或火星)是如何形成的,一直有一個大致的圖景:在一顆年輕的恆星周圍,會出現一個由...

數學各個分支簡介

數學各個分支簡介

數論 人類從學會計數開始就一直和自然數打交道了,後來由於實踐的需要,數的概念進一步擴充,自然數被叫做正整數,而把它們的相反數叫做負整數,介於...

不確定性原理到底在說什麼?

不確定性原理到底在說什麼?

提到量子力學,不確定性原理就是一個繞不開的話題。 不確定性原理非常直觀地體現了量子力學和經典力學之間的差異,而且表述還非常簡單。它既不像薛丁...

不確定性原理到底在說什麼?

不確定性原理到底在說什麼?

提到量子力學,不確定性原理就是一個繞不開的話題。 不確定性原理非常直觀地體現了量子力學和經典力學之間的差異,而且表述還非常簡單。它既不像薛丁...

學習資料科學的10件事

學習資料科學的10件事

編譯:張峰,Datawhale成員 我經常在我的YouTube頻道DataProfessor上被問到以下有關如何進入資料科學領域的問題: 如...

我在計算,何時醒來

我在計算,何時醒來

許多細菌物種都有一種神奇的生存策略。在面對飢餓和脅迫條件時,一些細菌會進入一種休眠狀態,生命過程隨即暫停。 這種「關機」進入深度休眠的細胞就...

我們每個人都是一臺空氣清淨機?

我們每個人都是一臺空氣清淨機?

有調查資料顯示,對多數人來說,90%左右的時間都是在室內度過的,比如家裡、工作場所或者交通工具上。在這些封閉的空間裡,人們會接觸到各種來源的...

那一抹靜謐的藍

那一抹靜謐的藍

或許你已經注意到,這三幅來自名家的畫作都透露著一絲神秘而美妙的感覺,它來自畫中靜謐而優雅的藍色。它們實際上都用到了一種在藝術界非常流行的顏料...