豐色 發自 凹非寺
量子位 | 公眾號 QbitAI
沒想到,圖像生成領域的大明星——
擴散模型,這麼快就被用來做蛋白質結構生成了!
而且結果在複雜度和結構上都和天然蛋白質有的一拼。
訊息一出,不少人都稱讚這個組合簡直非常妙。
還有人表示:我早就猜到了,生成模型能做的真的不僅是圖像和視訊。
所以,AlphaFold這是可能有新的挑戰者了?
具體是怎麼回事?
來看看史丹佛大學和微軟的這項最新研究成果到底怎麼說。
擴散模型vs蛋白質結構生成
說起研究的初衷,作者表示:
儘管蛋白質結構預測已經取得了非常好的成績,但要從神經網路中直接生成多結構多樣又新穎的蛋白質結構仍然很困難。
他們想到用基於擴散的生成模型來挑戰這一任務,並通過映象蛋白質自然摺疊過程來設計蛋白質主鏈結構。
具體來說,就是將蛋白質主鏈結構看成一系列連續的角度,這些角度會捕捉組成氨基酸殘基的相對方向。
進而通過從隨機、未摺疊狀態到穩定摺疊結構的去噪就可以生成新結構。
作者表示,這一設計不僅可以反映蛋白質如何在生物學上扭曲成能量上有利的結構(how proteins biologically twist into energetically favorable conformations),這種表示的固有位移和旋轉不變性也可以極大地減輕模型對複雜等變網路的需要。
在實現上,作者僅用一個簡單的transformer作為backbone就訓練出了一個去噪擴散概率模型。
最終證明它可以無條件地生成高度真實的蛋白質結構,其複雜性和結構模式類似於天然蛋白質的結構模式。
如下圖Ramachandran plot(拉氏圖,專門用於檢測蛋白質構象是否合理)所示,左右分別為測試集和生成的蛋白質主幹的(φ,ψ)二面角。
可以看到,三個主要結構元素、以及一些不太常見的角度組合都在他們用擴散模型生成的主幹中得到了呈現。
目前,基於以上成果,作者已公開發布了首個用於蛋白質結構擴散的開源程式碼庫和訓練模型,詳情可戳文末連結。
不過,作為一個初步探索,他們也指明這項成果還存在幾個侷限性,比如:
1、與通常有幾百個殘基的天然蛋白質相比,模型生成的結構仍然相對較短(最多128個殘基);
2、由於沒有處理多鏈複合物或配體相互作用,模型無法捕獲蛋白質的動態性質,只能生成靜態結構;
3、將蛋白質表述為一系列角度的框架設計會造成一些累積誤差,最終顯著改變生成的整體結構。
最後一個問題則可以對未來工作提供思路,比如試著用幾何資訊架構中使用的方法來解決相關問題。
最後,除了再次刷新我們對擴散模型的認知,一位畢業於ETH的研究人員看完這項成果後還大膽預測道:
未來5年內,可能漸漸沒有人會對全新的蛋白質序列或摺疊感到興奮了。
因為潛在的新酶和治療性抗體將通過文字提示生成。
對於這項成果,你有什麼想說的?
論文地址:
https://arxiv.org/abs/2209.15611
程式碼:
https://github.com/microsoft/foldingdiff