編輯:杜偉、小舟
我們距離精確預測 DNA 結構還遠嗎?
目前,使用人工智慧預測化合物分子結構是一個火熱的研究課題,DeepMind 蛋白質結構預測工具 AlphaFold2 證明了這一點。但應看到,實現分子結構準確預測的背後需要龐大的資料集。史丹佛大學的一項研究打破了這一限制,他們提出的機器學習方法僅使用很少的資料即實現了準確的 RNA 結構預測。
確定生物分子的 3D 形狀是現代生物學和醫學發現中最困難的問題之一。許多公司和研究機構花費數百萬美元來確定分子結構,卻也常常無果。
來自史丹佛大學的研究團隊利用機器學習的方法解決了這個難題。在電腦科學系副教授 Ron Dror 的指導下,史丹佛大學博士生 Stephan Eismann 和 Raphael Townshend 巧妙地使用機器學習技術開發了一種通過計算預測生物分子準確結構的方法。並且即使僅從少數已知結構中學習,他們的方法也能成功,使其適用於結構最難通過實驗確定的分子類型。
8 月 27 日,該團隊與史丹佛大學生物化學系副教授 Rhiju Das 合作的研究論文在《Science》上發表並登上封面。

論文地址:http://science.sciencemag.org/content/373/6558/1047
在此之前,去年 12 月該團隊的一篇研究論文已經登上了生物醫學期刊《Proteins》。

論文地址:https://onlinelibrary.wiley.com/doi/10.1002/prot.26033
在《Proteins》的論文中,研究團隊介紹說:該研究建立的神經網路架構從包含數萬個原子的分子結構中進行端到端的學習,其中涉及基於點的原子表示、旋轉和平移的等變性、局部卷積和分層子取樣操作。
兩篇論文的主要作者 Townshend 說:「結構生物學是對分子形狀的研究,結構決定功能。」該團隊設計的演算法不僅可以預測準確的分子結構,還能夠解釋不同分子的工作原理,該方法將適用於基礎生物學研究、藥物研發等。具體來講,團隊成員 Eismann 以蛋白質舉例說明:「蛋白質是執行各種功能的分子機器。為了執行它們的功能,蛋白質通常會與其他蛋白質結合。如果已知一對蛋白質與疾病有關,並且知道它們在三維條件下如何相互作用,醫學上就可以嘗試用一種藥物非常具體地針對這種相互作用。」
該研究的方法已經在蛋白質複合物和 RNA 分子方面取得了成功。正如研究團隊成員 Dror 所說:「機器學習近來取得的大多數進展都需要大量資料進行訓練。而該研究的方法在訓練資料很少的情況下取得成功的事實意味著:相關方法可以解決許多資料稀缺的領域中未解決的問題」,因此該方法可能具有巨大潛力。
使用少量資料實現 RNA 準確結構預測
RNA 分子的 3D 結構對 RNA 分子發揮自身功能至關重要,在藥物發現中也很有意義。然而,已知的 RNA 結構很少,並且通過計算來預測 RNA 結構極具挑戰性。
而史丹佛大學的這項研究使用機器學習(ML)的方法,只使用 18 種已知的 RNA 結構進行訓練,就能夠識別出準確的結構模型,同時無需這些結構模型的定義特性。通過這種機器學習方法得到的評分函數——原子旋轉等變評分器(Atomic Rotationally Equivariant Scorer, ARES)顯著優於以往方法。
下圖為訓練集中的 18 種 RNA 結構圖示。

具體地,為了訓練 ARES,研究者使用了 1994 年至 2006 年之間已發表的 18 個 RNA 分子,並利用 Rosetta FARFAR2 取樣方法生成了每個 RNA 的 1000 個結構模型,同時沒有使用任何已知結構。接著,他們最佳化了 ARES 神經網路的參數,使其輸出儘可能匹配每個模型對應結構的均方根誤差(RMSD)。
下圖 1 為 ARES 網路,其中 A 表示:僅給出原子座標和元素類型,ARES 即可預測結構模型的準確率;B 表示利用 ARES 的 RNA 結構預測;C 表示包含 18 種已有小型 RNA 結構的訓練集;D 表示包含新的、更大 RNA 結構的基準集。

下圖 2 展示了 ARES 顯著優於以往識別準確結構模型的評分函數。A 表示評分最佳結構模型的 RMSD;B 表示 10 個評分最佳結構模型中最低的 RMSD;C 表示無限接近評分最佳結構模型的排名;D 表示 2007 年以來評分最佳結構模型的 RMSD。

ARES 在社區範圍內的 Blind RNA 結構預測挑戰賽「RNA Puzzles」中實現了 SOTA 結果。如下圖 3 所示,A 表示 ARES 與其他方法的 Blind 預測準確率結果對比;B 表示 ARES 預測的晶體結構;C 表示其他方法實現的最佳晶體結構預測。

此外,ARES 還能學習識別事先沒有明確說明的 RNA 結構的關鍵特徵。下圖 4A 表示 ARES 學習螺旋寬度以實現最優的鹼基配對;4B 表示學習識別關鍵的 RNA 特徵。

就其優勢而言,史丹佛大學的方法可以基於少量資料進行有效學習,克服了標準深度神經網路的主要限制。並且該方法僅使用原子座標作為輸入,不包含特定的 RNA 資訊,因此適用於解決結構生物學、化學、材料科學等領域的各種問題。
作者簡介

共同一作 Raphael Townshend 是分子和藥物設計 AI 初創公司 Atomic AI 的 CEO。目前,他在史丹佛 AI 實驗室攻讀博士,研究興趣包括機器學習、結構生物學、高效能運算和計算機視覺。

通訊作者之一 Ron Dror 是史丹佛大學電腦科學系副教授,也是史丹佛 AI 實驗室所屬一個研究小組的負責人,專注於使用計算機技術解決生物學和藥物發現的基礎問題。作為高效能運算、機器學習、圖像分析、結構生物學和藥物設計等領域的專家,他還教授計算機生物學和機器學習,併為技術和製藥企業提供諮詢。
參考連結:
https://raphael.tc.com/
https://drorlab.stanford.edu/rondror.html
https://news.stanford.edu/2021/08/26/ai-algorithm-solves-structural-biology-challenges/
https://www.genengnews.com/news/rna-structures-predicted-with-uncanny-accuracy-by-unbiased-ai/
資料智慧技術實踐論壇——從資料到知識的「智變」
8月27日15:00-17:00,百分點科技與機器之心聯合舉辦「資料智慧技術實踐論壇」全程線上直播,四位業界專家與學者詳細解讀多模態資料融合治理、計算機視覺、基於知識圖譜的認知智慧、知識圖譜構建等領域的技術進展和實踐心得。
演講一:融合創新——計算機視覺技術與產業化發展之道
演講二:從「治」理到「智」理,多模態資料管理PAI應用方法論
演講三:從知識圖譜到認知智慧
演講四:知識圖譜技術及行業應用實踐
直播設有QA環節,歡迎加群交流答疑。

