AlphaFold對手來了:Meta發佈6億「暗物質」蛋白預測結果,僅用2周完成

Alex 發自 凹非寺

預測蛋白質結構的AI超級新星AlphaFold,現在遇到了強勁對手。

Meta的蛋白質預測大模型ESMFold,剛剛公佈了其最新成果:

6億多種蛋白結構預測結果,而且還是「蛋白質中的暗物質」——宏基因組蛋白(Metagenomic Proteins)。

宏基因組蛋白,簡單來說就是特定時刻下,環境微生物表達的所有蛋白。

它們來自細菌、病毒和其他尚未確定特徵的微生物,數量非常龐大。

研究它們不僅有助於發現新的蛋白質結構,還能幫科學家預測並尋到更多微生物,比如RNA病毒等。

要知道,此前AlphaFold背後的公司DeepMind,公佈了約2.2億種蛋白質預測結構,幾乎涵蓋了DNA資料庫中已知生物體的所有蛋白質。

也就是說,ESMFold現在預測出來的結構數量,相當於AlphaFold的3倍左右。

Meta的研究團隊還據此成果提出了一個關於元基因組資料庫:ESM Metagenomic Atlas,這也是全球首個大規模的元基因組蛋白質結構集合。

這些訊息一出,很快便收穫了一波關注和驚歎聲,Nature還為此發了篇專門的報道。

有意思的是,雖然AlphaFold更早問世,但LeCun曾指出這個思路是他們先提出的:

早在2019年,ESMFold背後的FAIR團隊就先提出了使用預訓練、基於Transformer的語言模型構想,後來該想法被AlphaFold團隊採納。

除了預測的數量多外,ESMFold還有個明顯優勢:速度快

2周預測出6.17億個蛋白質結構

Meta團隊的研究人員表示,用ESMFold預測超過6.17億個蛋白質的結構,只花了2周時間。

另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒內對含有384個殘基的蛋白質進行預測,比AlphaFold2快6倍。

而對於較短的序列,它甚至比AlphaFold2快了60倍。

如此神速的背後,一個至關重要的因素就是:ESMFold的輸入基於Transformer語言模型。

看到這點,你或許會疑惑:預測蛋白質結構的模型,和語言模型有什麼關係?

一方面,從資料層面來看,語言和蛋白質結構都具有離散性

通俗來說,一個合成結構可以拆成單個成分,就像一段話能拆分出單個字詞、一個蛋白質能拆分出單個氨基酸;且兩個單位之間不存在量的連續性遞增或遞減關係。

另一方面,上下文和語境制約著某個單詞的含義;相似地,蛋白質的結構和功能制約著序列突變方向。

所以,Meta AI受到語言模型啟發,提出了ESMFold的基本構想。

基於語言模型的開發出來的ESMFold,主體結構其實和AlphaFold2有不少相似之處——

它也能拆分為四部分:資料解析、編碼器、解碼器,以及循環部分。

其中,資料解析部分用於輸入序列和資料庫的解析,為編碼器提供輸入。

ESMFold模型結構示意圖

巴特!比起AlphaFold 2,ESMFold用於推理的神經網路結構結構被簡化了:

ESMFold消除了對明確同源序列(以MSA形式)輸入的需求,並且也不用進行Jax圖編譯,所以可以省下了不少時間。

這樣不僅可以大幅縮短大型基因組序列資料庫的構建時長;而且能在相同時間內預測出更多結構。

150億的參數量

除了基於語言模型,還有一點也不容忽視:ESMFold的參數量巨大

在今年早些時候,Meta AI團隊宣佈ESMFold模型更新了:

ESM2的參數量直接飆升到150億,一躍成為迄今為止最大的蛋白質語言模型。(AlphaFold2的參數量為9300萬左右)

一般來說,模型的參數量越大,意味它其能運用的函數越多,進而使其學習的準確率和精度大大提升。

這一點在蛋白質結構預測AI上也得到了印證:

ESMFold模型的參數量達150億之後,其解析度更高了,能達到原子級別。

其中,對於單序列輸入,ESMFold的精度優於AlphaFold2——

通過這個150億參數的ESM2,ESMFold只用一個序列作為輸入,就能有效預測端到端的3D結構;而AlphaFold2則需要多序列輸入才能有良好表現。

單序列輸入時,ESMFold預測精度更高

不過在多序列輸入的情況下,ESMFold的精度和AlphaFold2相比,還是略有差距。

此外,在蛋白質結構預測的準確性方面,ESMFold和AlphaFold2的表現不相上下。

不過需要說明的一點是,Meta的研究人員也表示,這6億多個預測出來的蛋白質結構目前還沒有被定性,還需後續的核驗、分類等。

……

話說這些年,蛋白質預測模型以及其背後的計算生物學可謂方興未艾,「AI For Science」正在發生。

先前科學家們經過幾十年的努力,只覆蓋了人類蛋白質序列中17%的氨基酸殘基;而AlphaFold在2018年才官宣,至今已經預測出了人類98.5%的蛋白質結構。

至於ESMFold,該研究團隊的領導者Alexander Rives指出:

對於蛋白質結構解析和探索未知蛋白質結構,ESMFold都算科學家們的得力助手。

目前ESM2模型的部分程式碼已在GitHub上免費開源,感興趣的夥伴們可以去看看!

程式碼傳送門:

https://github.com/facebookresearch/esm

模型傳送門:

https://esmatlas.com

參考連結:

[1]https://twitter.com/alexrives/status/1587467124741742593

[2]https://www.nature.com/articles/d41586-022-03539-1

[3]https://twitter.com/alexrives/status/1561693284912828420

[4]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full

[5]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2

相關文章

手機裡的微信群,都在變成DAO

手機裡的微信群,都在變成DAO

tou解釋最新科技進展,報道矽谷大事小情 一個烏托邦式的組織設想,正在帶來的革命和所要面對的挑戰。 —— 文|Juny 編輯|VickyXi...