都在說的「AI for Science」,到底怎麼幫助科學進化?

用 AI 模擬微觀世界,跨尺度理解物理現象。

作者 | 前沿社

從 1956 年「人工智慧」概念誕生,討論「如何用機器模擬人的智慧」已經經歷 70 餘年,在演算法、算力和資料方面取得了諸多突破,並在在諸如智慧製造、自動駕駛等工業領域有著充分的發展。

近幾年,AI 在生物、能源、製藥、材料等科學領域的作用正在經歷大的轉變。AI 強大的資料歸納、分析能力讓科學家從重複驗證和試錯的過程中解放出來;同時,AI 也正在從科學的最底層規律出發,讓 bottom up 的純資料驅動方式逐漸轉向與物理模型相融合的階段。

AI for Science,即科學智慧,就是用 AI 去學習科學原理,然後得到模型,進而去解決實際的問題。比如 AlphaFold2 對蛋白質摺疊結構預測,就攻克了困擾生物學界 50 餘年的難題。

9 月 22 日,前沿社組織了一場關於 AI for Science 主題的線上「夜聊」,特別邀請到深勢科技創始人 & CEO 孫偉傑,共同探討AI 對於傳統科研究竟意味著什麼,最終會帶來哪些改變?當 AI 開始在部分基礎科學中成為研究工具,接下來會如何演進?

深勢科技成立於 2018 年,是 AI for Science 科學研究正規化的先行者,致力於運用人工智慧和分子模擬演算法,結合先進計算手段求解重要科學問題,為人類文明最基礎的生物醫藥、能源、材料和資訊科學與工程研究打造新一代微尺度工業設計和仿真平臺。核心成員團隊獲得過 2020 年「戈登貝爾獎」——這個獎被稱為「全球超算領域的諾貝爾獎」。

深勢科技推出的蛋白質結構預測工具 Uni-Fold,是領域內首個接近 AlphaFold2 精度、並且開源了訓練程式碼和推理程式碼的項目;Uni-Fold 還克服了 AlphaFold2 硬體支持單一、模型不可商用等侷限性 | 圖:Uni-Fold 預測的蛋白結構

前沿社活動均為創業者、企業家之間的閉門學習交流,並不對外開放。但我們也整理了一些現場討論的精華內容進行發佈,希望對你有所啟發。

Show Notes

1. 跨尺度建模是 AI for Science 的最重要應用之一,它可以既快又準地學習微觀的模型,然後做出和宏觀速度差不多的計算和仿真。

2. AI for Science 已經在藥物研發、材料研發方面發揮作用,同時也在給下游的應用學科帶來突破。

3. AI for Science 的真正落地將會讓工業生產向前邁進一大步,同時帶來更多前所未有的機會和空間。

4. 未來十年,我們或許會看到 AI for Science 幫助科學家發現更多複雜系統(如生命科學)的科學規律。

01

什麼是 AI for Science ?

簡單來說,AI for Science 有三層內涵:

  • 第一是科學規律在具體的行業應用中的落地,用 AI 求解複雜系統的問題。

  • 第二層 AI 是發現新科學的有效的手段,能夠幫助人類從大量的複雜資料中,去抽取一些人類觀察不到的高維資訊和高價值規律。比如基因序列、蛋白序列背後的高維特徵。

  • 第三,AI for Science 讓科學更加走向理性。我們過去很多對產業問題的分析,都是先看這個領域都沒有資料。但在未來,大家一方面可以看有沒有資料,另一方面可以看有沒有好的物理規律做支撐。我們可以先用 AI 去學習物理模型,學習一些特定的規則,進一步結合一些小的資料去解決實際問題。

02

跨尺度建模,兼顧

計算的「快」和「準」

從不同的時間和空間尺度上來觀察世界,發現的現象是不一樣的。越是大的東西,它運動的頻率越低;越是微觀的運動頻率越高,動得就越快。

微觀下看,當計算分子間或者原子間相互作用時,原子之間相互作用可以抽象為幾種簡單的作用力。比如原子之間有一個化學鍵,它的鍵能是多少,碳氧鍵的鍵能是多少?化學鍵和化學鍵之間會有鍵角,它們之間相互的能量空間是多少,二面角的空間是多少?離得比較遠的靜電相互作用和泛化相互作用,它的空間是多少?……這樣形成了一系列的經驗,就能分析原子間的相互作用。

在每一個尺度上觀察時,我們都是在觀察這個尺度上的現象,它還會有一些隨機性。

引入更微觀的參數後,就能夠以第一性原理精確地求解裡面的問題;但對應的瓶頸是:一旦引入更微觀層面的參數,計算就會變得非常複雜,進入「維度災難」

(注:維度災難指複雜系統的計算中,隨著維數的增加,計算量呈指數倍增長的問題)。

物質結構:分子 | 圖源:新浪網

物質結構:分子 | 圖源:新浪網

如果我們改用宏觀尺度的模型去計算物體的運動,就能算很快,但是通常會算不準。我們如果想算得準,就得引入更微觀的模型,但這樣計算量太大,算不快。

所以 AI for Science 就是要解決計算時「快」和「準」不可兼得的問題。我們用 AI 學習微觀的、電子層面的模型,然後去求解更宏觀的、原子間的基礎作用。這是 AI for Science 最重要的應用之一,即跨尺度建模。

03

AI for Science

正在如何發揮作用?

利用 AI 學習分子動力學方程的這套方法,在藥物發現方面可以輔助靶點發現、先導化合物篩選等環節;在材料方面可以幫助高分子材料、柔性材料、液晶材料的研發,同時也給下游的應用學科帶來突破。

人體所有疾病的發生,幾乎都可以歸結為蛋白質功能的異常,例如蛋白質表達過度或抑制。所以,人為地抑制或激發蛋白靶標,改變蛋白質的功能,就可以達到治療疾病的目的。藥物分子和蛋白質的組合,就像是鎖和鑰匙的關係。

藥物研發的步驟一般是:蛋白結構解析 – 蛋白動態探索 – 藥物分子發現 – 藥物活性最佳化 – 成藥性最佳化。

確定一個蛋白靶標後,我們需要了解它的三維結構,才能設計一個藥物分子來和它結合;還要知道蛋白質的動態機理,因為蛋白質的所有作用都是由它的動態結構決定的。

這是一個酶的三維結構圖(GIF),紅色的位置是它催化的口袋。當一個底物放進去之後,在裡面經過磷酸化再出來,就完成了一個催化的反應。所以這個口袋必須要會動,而且我們必須要了解它是如何運動的,才能夠理解它的功能。

AI for Science 驅動藥物的研發 | 圖源:深勢科技

藥物篩選環節中,過去依賴的是高通量的重複式實驗,可能要花費一兩年時間,進行幾百萬次實驗才能得出結果。而現在,我們可以通過大量的計算來篩選出 50 – 200 個合適的藥物分子,再用實驗進行驗證。

蛋白質的動力學模擬方面,我們能夠從動態上預測蛋白質的構象變化。我們把這部分演算法由過去的 CPU 計算潛移到了 GPU 上,並且進行了資料和計算的並行。最終,我們在保持精度的同時把速度提升了 1600 多倍,在幾天之內就可以計算十幾億個分子,實現更加快速的篩選。

在藥物的其他方面預測上,我們採用的方法是先進行無監督的學習,然後再通過微調(fine tune)進行二次有監督的訓練。這種方法解決了藥物研發中某些領域資料量少的問題,例如藥物的吸收分佈、代謝毒性等。

藥物分子和蛋白質的特性基本都是由三維結構決定的。因此,只要 AI 能夠抓取到三維結構的特徵,理論上就可以建立起可用的模型。

但在很多科學問題的研究中,由於資料少、特徵難以提取等原因,AI 很多時候無法提取出關鍵特徵並建立模型。這個時候,就可以通過小規模的 AI 預訓練來解決這樣的問題。

這種方法不僅解決了小資料帶來的問題,同時也為科學規律的發現提供了一種新的可能性。

材料的中心法則 | 圖源:深勢科技

材料的中心法則 | 圖源:深勢科技

在材料方面,我們關心的是材料在現實場景中服役的表現。服役表現主要是由材料的性能決定的,而性能又是由微觀結構決定的。要想研究出一種好的材料,一定會涉及到多尺度的結構方面的計算。

由於要跨越不同的物理尺度,很多問題都無法用單一的模型去解決。例如,微觀上我們可以類比電子的性質,宏觀一點可以類比電子的密度,但是很難類比電子間的能帶結構和相互作用,因為這個規模是處在電子性質和密度之間的。

還是那個問題:從微觀角度計算能夠算的準,但不快;而從宏觀角度計算能夠算的快,但不準。AI for Science 可以既快又準地學習微觀的模型,然後做出和宏觀速度差不多的計算和仿真。

同藥物研發一樣,第一步先把材料的服役性能抽象成一些特定的材料性質,例如它的基礎性質、穩定性、可加工性。有了這些性質 profile 之後,再把它轉化成可以用物理模型計算的科學問題。

然後,我們對材料進行多級計算的篩選,最後把它放到實際的複雜系統中測試。例如,一個半導體材料篩選出來之後,我們還要把整個半導體器件都仿真出來,看看它的性能到底如何。

實際的研發案例中,這個過程其實是一種材料的逆向設計。即從現實需求反推到性能,再找出對應的結構和組分。

鋰電池固態電解質組分研究 | 圖源:深勢科技

上圖是我們通過計算發現的一個新的鋰電池的固態電解質組分研究。對於電池,我們主要關心的是穩定性和電導率這兩個性質。

左側的紅色的三角形顯示的是穩定性,藍色的部分就是組分穩定性比較好的組合;右邊綠色的三角形顯示的是電導性,深色的部分就是電導率比較高的組合。我們要做的就是,找到這兩個性能都比較好的,即藍色和深綠色重合的部分。

從圖表中可以看到,計算得出的結果(藍色圓點)和實驗結果(紅色區間)是完全重合的。而過去的計算誤差則十分大,完全沒有落在紅色區間內。

目前,深勢科技在材料部分主要會從新材料切入,最終服務於新能源、資訊技術和先進製造這些領域。

深勢科技已推出 Hermite® 藥物計算設計平臺、Bohrium 微尺度科學計算雲平臺等微尺度工業設計基礎設施,顛覆現有研發模式,打造了「計算指導實驗、實驗反饋設計」的全新正規化 | 圖源:深勢科技

04

在更多複雜系統,AI 將幫助發現科學規律

總結一下,AI for Science 最值得期待的兩大機會在於:包括藥物設計和材料設計在內的新一代工業軟體;另一方面則是像流體、固體等非常複雜的工業系統。AI for Science 的真正落地將會讓工業生產向前邁進一大步,同時帶來更多前所未有的機會和空間。

資訊科學中的 AI for Science | 圖源:北京科學智慧研究院 & 深勢科技

生命科學本質上也是一個複雜系統。但在生命科學領域,尤其是在人體的層面,還有很多問題無法被翻譯成化學問題。例如,我們現在已經清楚地了解蛋白質的結構、蛋白質的動力學、蛋白的相互作用,但細胞生物學到分子生物學之間的 gap 目前還無法解決。

在未來,生命科學領域可能需要摸索出一系列最基礎的運行法則和規律,類似化學中的元素週期表。這樣,我們就可以從最微觀的層面對生命活動做出一些底層的解析。

同樣,材料學中很多問題也缺少規律和原理的指導。例如,微觀上,材料的塑性形變和缺陷是由一些位錯形成的,其中的原理可以靠量子力學和分子動力學來研究。但中間層的科學機理到底是什麼?其中的定律尚不清楚。

在這些複雜系統領域,AI for Science 的願景是要幫助科學家發現這些科學規律。在未來的十年之內,我們期望能夠看到這一方面的突破性成就。

最後,引用一下黃仁勳今年的一句話,非常令人觸動:AI 的未來一定是要學會規律和物理法則,實現這一點,將把我們帶入 AI 的新時代。這句話和 AI for science 的願景非常契合。

Q&A 精選

Q&A 精選

Q1: AI for Science 似乎不只是可以運用在科研,它帶來的是一種技術的變革。那麼它的邊界究竟在哪裡?

孫偉傑:邊界確實不止於在科研。藥物研發、材料研發目前在微觀層面上是更加適合 AI for science 方法的領域,但這種方法論其實在未來可以延展到更多的領域。

除了剛剛提到的兩種微觀尺度的計算模擬上, AI for Science 在宏觀尺度上也有很大的潛力。例如在複雜流體的模擬、天氣預報上,AI for Science 其實可以發揮出更大的作用。對於它的邊界到底在哪,可能還需要更長的時間大家共同去探索。

Q2:AI for Science 的開發需要對 AI 和基礎科學都有很深的了解嗎?

孫偉傑:是的,需要對 AI 和細分領域的基礎學科都有深度了解,這一點非常重要。其實,現在 AI 作為一個工具其實越來越成熟,使用 AI 輔助科研也越來越容易了。以前,我們說科技會在一些 feature 的層面去做創新,而現在的趨勢是要往底層去走。通過 AI,我們可以在底層實現一些革命性的變化。

Q3:AI for Science 的商業模式是怎樣的?

孫偉傑:商業模式是一個動態的問題,要針對不同的使用者群體和不同的市場。

AI for Science 在科研領域、高校、學者的中其實已經有了一定的發展,這些人群自己本身就有非常強的開發能力和使用工具的能力。過去大家做科學計算都是用一些開源軟體,甚至自己就做很多二次開發。所以,對這類使用者,深勢科技是把這些工具打造成 SaaS 提供給他們。

但是工業界傳統的研發模式不是這樣的,很難把最新一代的工具用起來,所以 SaaS 這套方案行不通。

在做材料研發和藥物研發方面,深勢科技主要是通過 IP 授權的方式,把產品真正做出來,出售給製藥廠和材料廠商。比如,我們會把藥物的分子或材料的配方研發出來,申請專利,把它 license 出去。商家直接拿著我們的研究到一半的分子,接下來去做就可以了。

圖源:北京科學智慧研究院 & 深勢科技

圖源:北京科學智慧研究院 & 深勢科技

*頭圖來源:視覺中國

相關文章

衛星隱身技術研究進展及發展趨勢

衛星隱身技術研究進展及發展趨勢

摘要: 衛星隱身技術在空間攻防系統中佔有獨特的地位,與在地面裝甲車輛、艦船、飛機上應用的隱身技術有一定的相似之處,但由於衛星研製條件以及所處...

18年後,無人倖免?

18年後,無人倖免?

1 AI,真的覺醒了? 人工智慧,會甦醒嗎? 這是一個古老而又新奇的話題。 「深度學習」天生的不可預測,加深了這種憂慮。 「神經網路」的生物...

Intel盯上GPU:從遊戲到資料中心

Intel盯上GPU:從遊戲到資料中心

夢晨 發自 凹非寺,量子位 | 公眾號 QbitAI 從遊戲、短視訊到人工智慧、工業仿真再到元宇宙,這些當下風口都離不開同一種晶片—— GP...

告別手搖織布機的AI時代

告別手搖織布機的AI時代

詹士 編輯 發自 凹非寺 量子位 | 公眾號 QbitAI 18世紀60年代,當蒸汽機被髮明時,絕大多數人並沒有意識到「工業革命」的到來; ...

DRAM儲存晶片:三雄決戰DDR5

DRAM儲存晶片:三雄決戰DDR5

繼DDR5 DRAM成為英特爾「Alder Lake」第12代處理器的標準配置之後,AMD近日也宣佈其7000系列處理器將支持DDR5記憶體...

英偉達的元宇宙夢想,不止 Omniverse

英偉達的元宇宙夢想,不止 Omniverse

英偉達已經成為元宇宙的基礎服務商。 作者 | Founder Park 要談元宇宙,英偉達是避不開的。 不管是更真實呈現虛擬世界所需要的光追...