Alex 發自 凹非寺
預測蛋白質結構的AI超級新星AlphaFold,現在遇到了強勁對手。
Meta的蛋白質預測大模型ESMFold,剛剛公佈了其最新成果:
6億多種蛋白結構預測結果,而且還是「蛋白質中的暗物質」——宏基因組蛋白(Metagenomic Proteins)。
宏基因組蛋白,簡單來說就是特定時刻下,環境微生物表達的所有蛋白。
它們來自細菌、病毒和其他尚未確定特徵的微生物,數量非常龐大。
研究它們不僅有助於發現新的蛋白質結構,還能幫科學家預測並尋到更多微生物,比如RNA病毒等。
要知道,此前AlphaFold背後的公司DeepMind,公佈了約2.2億種蛋白質預測結構,幾乎涵蓋了DNA資料庫中已知生物體的所有蛋白質。
也就是說,ESMFold現在預測出來的結構數量,相當於AlphaFold的3倍左右。
Meta的研究團隊還據此成果提出了一個關於元基因組資料庫:ESM Metagenomic Atlas,這也是全球首個大規模的元基因組蛋白質結構集合。
這些訊息一出,很快便收穫了一波關注和驚歎聲,Nature還為此發了篇專門的報道。
有意思的是,雖然AlphaFold更早問世,但LeCun曾指出這個思路是他們先提出的:
早在2019年,ESMFold背後的FAIR團隊就先提出了使用預訓練、基於Transformer的語言模型構想,後來該想法被AlphaFold團隊採納。
除了預測的數量多外,ESMFold還有個明顯優勢:速度快。
2周預測出6.17億個蛋白質結構
Meta團隊的研究人員表示,用ESMFold預測超過6.17億個蛋白質的結構,只花了2周時間。
另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒內對含有384個殘基的蛋白質進行預測,比AlphaFold2快6倍。
而對於較短的序列,它甚至比AlphaFold2快了60倍。
如此神速的背後,一個至關重要的因素就是:ESMFold的輸入基於Transformer語言模型。
看到這點,你或許會疑惑:預測蛋白質結構的模型,和語言模型有什麼關係?
一方面,從資料層面來看,語言和蛋白質結構都具有離散性。
通俗來說,一個合成結構可以拆成單個成分,就像一段話能拆分出單個字詞、一個蛋白質能拆分出單個氨基酸;且兩個單位之間不存在量的連續性遞增或遞減關係。
另一方面,上下文和語境制約著某個單詞的含義;相似地,蛋白質的結構和功能制約著序列突變方向。
所以,Meta AI受到語言模型啟發,提出了ESMFold的基本構想。
基於語言模型的開發出來的ESMFold,主體結構其實和AlphaFold2有不少相似之處——
它也能拆分為四部分:資料解析、編碼器、解碼器,以及循環部分。
其中,資料解析部分用於輸入序列和資料庫的解析,為編碼器提供輸入。
△ESMFold模型結構示意圖
巴特!比起AlphaFold 2,ESMFold用於推理的神經網路結構結構被簡化了:
ESMFold消除了對明確同源序列(以MSA形式)輸入的需求,並且也不用進行Jax圖編譯,所以可以省下了不少時間。
這樣不僅可以大幅縮短大型基因組序列資料庫的構建時長;而且能在相同時間內預測出更多結構。
150億的參數量
除了基於語言模型,還有一點也不容忽視:ESMFold的參數量巨大。
在今年早些時候,Meta AI團隊宣佈ESMFold模型更新了:
ESM2的參數量直接飆升到150億,一躍成為迄今為止最大的蛋白質語言模型。(AlphaFold2的參數量為9300萬左右)
一般來說,模型的參數量越大,意味它其能運用的函數越多,進而使其學習的準確率和精度大大提升。
這一點在蛋白質結構預測AI上也得到了印證:
ESMFold模型的參數量達150億之後,其解析度更高了,能達到原子級別。
其中,對於單序列輸入,ESMFold的精度優於AlphaFold2——
通過這個150億參數的ESM2,ESMFold只用一個序列作為輸入,就能有效預測端到端的3D結構;而AlphaFold2則需要多序列輸入才能有良好表現。
△單序列輸入時,ESMFold預測精度更高
不過在多序列輸入的情況下,ESMFold的精度和AlphaFold2相比,還是略有差距。
此外,在蛋白質結構預測的準確性方面,ESMFold和AlphaFold2的表現不相上下。
不過需要說明的一點是,Meta的研究人員也表示,這6億多個預測出來的蛋白質結構目前還沒有被定性,還需後續的核驗、分類等。
……
話說這些年,蛋白質預測模型以及其背後的計算生物學可謂方興未艾,「AI For Science」正在發生。
先前科學家們經過幾十年的努力,只覆蓋了人類蛋白質序列中17%的氨基酸殘基;而AlphaFold在2018年才官宣,至今已經預測出了人類98.5%的蛋白質結構。
至於ESMFold,該研究團隊的領導者Alexander Rives指出:
對於蛋白質結構解析和探索未知蛋白質結構,ESMFold都算科學家們的得力助手。
目前ESM2模型的部分程式碼已在GitHub上免費開源,感興趣的夥伴們可以去看看!
程式碼傳送門:
https://github.com/facebookresearch/esm
模型傳送門:
https://esmatlas.com
參考連結:
[1]https://twitter.com/alexrives/status/1587467124741742593
[2]https://www.nature.com/articles/d41586-022-03539-1
[3]https://twitter.com/alexrives/status/1561693284912828420
[4]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1.full
[5]https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2