通用蛋白質設計新方法,Google研究團隊:具有分層功能的從頭蛋白質設計的條件生成建模

蛋白質設計對於醫學和生物技術應用變得越來越重要。由於蛋白質形成的複雜機制,新蛋白質的產生需要繁瑣且耗時的計算或實驗協議。同時,機器學習通過利用大量可用資料來解決複雜問題,最近在生成建模領域有了很大的改進。然而,生成模型主要應用於蛋白質設計的特定子問題。

谷歌的研究人員解決了以分層基因本體的功能標籤為條件的通用蛋白質設計問題。由於缺少在該領域評估生成模型的規範方法,他們設計了一個評估方案,其中包含幾個生物學和統計學啟發的指標。

然後,該團隊開發了條件生成對抗網路 ProteoGAN,並表明它在蛋白質序列生成方面優於幾個經典和最近的深度學習基線。研究人員估計,功能條件模型可以通過組合標籤來生成具有新功能的蛋白質,併為這一研究方向邁出第一步。

該研究以「Conditional generative modeling for de novo protein design with hierarchical functions」為題,於 2022 年 7 月 1 日刊載在《Bioinformatics》。

設計具有目標生物功能的新蛋白質是生物技術中的一項常見任務,並且在合成生物學和藥物研究(例如藥物發現)中具有廣泛的應用。這項任務具有挑戰性,因為蛋白質的序列-結構-功能關係極其複雜,尚未完全了解。

因此,蛋白質設計主要通過試錯法完成,例如定向進化,它依賴於已知蛋白質的一些隨機突變和選擇壓力來探索相關蛋白質的空間。這個過程既費時又費錢,而且通常只探索一小部分序列空間。同時,表徵蛋白質及其功能的資料很容易獲得,併為機器學習在蛋白質序列設計中的應用提供了有希望的機會。

最近提出了多種生成模型來設計用於不同任務的蛋白質,例如開發新療法、酶、奈米抗體序列或導致抗生素耐藥性的蛋白質。這些模型通常專注於蛋白質設計的子任務,因此僅限於給定的應用,通常甚至僅限於特定的蛋白質家族。這需要對一項新任務進行重新訓練,這限制了模型可以從中學習的序列的多樣性和數量。

在其他領域,例如密切相關的自然語言生成,人們可以觀察到通用模型的趨勢,然後在各種上下文中使用這些模型。谷歌團隊的研究人員假設,同樣在蛋白質設計中,一刀切的模型可以學習不同蛋白質類別的共同基本原理,從而提高生成序列的質量。

更進一步,它甚至可以通過結合它在不同蛋白質家族中學到的功能的不同方面來創造不僅新的序列,而且還可以創造新的功能。因此,該團隊開發了 ProteoGAN,這是一種用於條件蛋白質設計的通用生成模型,基於分子功能基因本體論(the Molecular Function Gene Ontology,GO),一種描述蛋白質功能方面的標籤層次結構。這些功能從結合特異性試劑到轉運蛋白或傳感器活性、生化反應催化等等不一而足。

此外,分層組織中編碼的資訊可能有助於對性能進行建模。他們的模型基於流行的生成對抗網路(GAN)框架。研究人員通過提出一種條件機制來擴展框架,將蛋白質功能的多標籤層次資訊納入生成過程。

然而,開發這樣的生成模型可能具有挑戰性,尤其是因為缺乏針對問題的評估。評估指標需要評估生成的樣本是否有效(即現實性和功能性),這本身就是一個難題,還需要快速計算大量樣本。生成模型的評估仍在進行中,特別是在蛋白質設計領域。

雖然生成序列的金標準驗證意味著在實驗室中合成蛋白質,但缺乏計算機評估使得難以有效地比較蛋白質序列設計的方法。因此,該團隊基於最大平均差異 (MMD) 統計量為生成蛋白質設計構建了一系列評估指標,以測量生成序列與真實蛋白質的分佈相似性和條件一致性。同時,進一步提出了解釋序列多樣性的措施。

蛋白質設計的相關生成模型

引導和條件蛋白質生成模型

機器學習模型和最近的深度生成模型已被用於設計計算機生物序列,例如 RNA、DNA 或蛋白質序列,通常旨在創建具有所需特性的序列。實現這一目標有兩種主要策略,一種是有指導的,另一種是有條件的。引導式方法使用預測器(也稱為預言機)通過迭代的訓練-生成-預測步驟來引導設計朝著目標屬性發展。

然而,在具有多個功能標籤的情況下,缺乏用於蛋白質功能的高度準確和快速的多標籤預測器會損害功能性蛋白質生成中的引導生成技術。另一方面,條件方法將功能資訊集成到生成機制本身中,從而無需預測器。

例如,2020 年 Madani 團隊開發了 ProGen,這是一種條件轉換器,可以控制生成大量功能性蛋白質,但對序列上下文的需求可能會受到實驗限制,並且與從頭設計不兼容。2019 年 Ingraham 團隊提出了一種基於圖的條件生成模型,該模型依賴於結構資訊,而這種資訊很少可用。2018 年 Das 團隊和 Greener 團隊訓練條件變分自動編碼器(CVAE)以生成特定蛋白質,例如金屬蛋白。2020 年 Karimi 團隊使用引導條件 Wasserstein-GAN 生成具有新摺疊的蛋白質。

所有這些模型要麼只關注蛋白質設計的子任務,要麼依賴於上下文資訊,例如 3D 結構或模板序列片段。而谷歌團隊所提出的 ProteoGAN,是一種用於蛋白質設計的通用模型,該模型只需要指定生成所需的功能特性。

生成模型的評估

迄今為止,對於評估(條件)生成模型輸出的質量、多樣性和條件一致性的最佳評估措施,還沒有明確的共識。大多數在計算機視覺中脫穎而出的指標,例如初始分數、Frechet 初始距離(FID)或 GAN 訓練和 GAN 測試,都依賴於外部的、特定於領域的預測器。

對於功能性蛋白質設計,這樣的預測器在評估和訓練神經網路時既不夠好也不夠快,無法完全依賴它們的預測。功能註釋的關鍵評估 (CAFA) 挑戰報告了當前最佳模型(NetGO),其 Fmax 得分為 0.63,其預測速度約為每小時 1000 個序列。相反,域無關對偶間隙可以在訓練和測試時計算,並且已被證明與 FID 有很好的相關性。

在自然語言建模中,困惑度是一種常見的評估指標,與模型下測試集的概率有關。然而,這需要訪問在某些模型中不可用的可能性,例如 GAN,並且並不總是樣本質量的良好指標。另一種方法測量可以從不完整的序列中恢復多少野生型殘基,然而,這與從頭蛋白質設計的想法背道而馳。

儘管研究界對蛋白質生成模型的興趣日益濃厚,但還沒有明確的指標可以作為比較它們的可靠工具。

討論

指標的元評估:Spectrum MMD 是蛋白質設計的有效指標

不同的嵌入捕獲原始資料的不同方面。該團隊感興趣的是相對簡單的 Spectrum 核心嵌入是否足以評估分佈相似性和條件一致性,因此將其與三個生物學基礎的嵌入進行了比較:ProFET,主要與單個氨基酸或序列基序的生物物理特性相關的序列特徵的手工選擇,UniRep,基於 LSTM 的學習嵌入和 ESM,基於 Transformer 的學習嵌入。後兩者被證明可以恢復蛋白質的各個方面,包括結構和功能特性以及進化背景。

在這個比較中,ESM 嵌入可以說是最強大的,並且有望獲得最好的分數。值得注意的是,Spectrum 核心嵌入也非常適合評估蛋白質的結構和功能方面,同時計算速度快幾個數量級,並且需要更少的計算資源。這使得它更適合神經網路和其他模型的評估或超參數最佳化過程中對性能的要求。

選擇 Spectrum 核心嵌入的另一個原因是它的簡單性,因為它不對資料分佈做任何假設:學習到的嵌入 UniRep 和 ESM 是在大量自然序列上訓練的複雜非線性對映,雖然它們在自然分佈資料上表現出色,但它們在生成序列上的行為仍然不可預測。

超參數分析:ProteoGAN 的條件判別器對其性能最為關鍵

研究人員測試了 cGAN 的各種超參數和架構選擇,並在 fANOVA 框架(functional ANOVA framework)中對蛋白質設計性能指標 MMD 和 MRR 進行了分析。為了為這些模型的後續工作提供資訊,研究人員可以根據經驗得出一些專門用於蛋白質設計的 GAN 設計原則。

首先,較小的架構比具有四個以上隱藏層的網路表現得更好。這個大小似乎足以對蛋白質進行建模,儘管最佳化當然會對快速收斂(小)模型產生選擇壓力。判別器達到最優解,比通過較大的學習率經常找到的局部最優,更重要。

研究人員觀察到分佈相似性和條件一致性之間的權衡。這表現在增加 MRR 和降低 MMD 性能時,當權衡更強的 AC 的訓練損失項時,以及在不同的調節機制之間切換時。

僅使用序列作為輸入,而不是將生物物理特徵向量附加到序列嵌入中,可以獲得最佳性能。氨基酸同一性,而不是其特性,似乎對序列建模更為關鍵。

研究人員發現,在比較捕獲標籤之間的層次關係的不同標籤嵌入時,標籤的簡單 one-hot 編碼顯示出最佳結果。對於模型,離散的 one-hot 標籤嵌入似乎比連續的 node2vec 嵌入或雙曲 Poincaré 嵌入更容易解釋。雖然這些嵌入包含更多資訊,但 one-hot 編碼以更易於訪問的形式呈現它們。此外,對於神經網路需要首先學習的許多基本概念,雙曲空間需要特殊的運算元。

GAN 框架的其他流行擴展,例如輸入噪聲、標籤平滑或訓練比率在上下文中沒有顯著影響模型性能。總而言之,一個具有調節機制且沒有進一步序列或標籤增強的小型模型效果最好。對架構的進一步改進應該集中在改進鑑別器上,因為影響它的超參數顯示出最大的影響。

他們的最終模型 ProteoGAN 是最佳化性能最好的模型,具有多個投影、一個 AC、沒有生物物理特徵和標籤資訊的單熱編碼。

基線比較:ProteoGAN 優於其他方法

根據提出的分佈相似性、條件一致性和多樣性指標,研究人員評估 ProteoGAN 的性能,並將其與幾個基線進行比較。通過對生物嵌入 ProFET、UniRep 和 ESM 以及嵌入的特徵 KS 統計量的評估來鞏固結果。

圖示:基於 Spectrum 核心嵌入,使用 MMD、MRR 和多樣性指標評估 ProteoGAN 和各種基線。(來源:論文)

結果表明,ProteoGAN 在所有指標和嵌入上都明顯優於 HMM、n-gram 模型和 CVAE。這同樣適用於 OpL 版本,每個標籤訓練一次。ProteoGAN 的性能也優於最先進的 ProGen 模型。

MMD 值相似,ProGen 可能會比 ProteoGAN 更好地擴展;然而,MRR 顯示了 ProteoGAN 在條件生成方面的明顯優勢。

適用性:ProteoGAN可以支持更大序列空間的蛋白質篩選

沒有溼實驗室驗證,很難證明生物學有效性,後續可能會進行驗證。研究人員承認,MMD 值仍然與陽性對照有顯著差異,並且相應的 P 值在這方面尚無定論。因此,生成的序列很可能不是開箱即用的,而是需要一些實驗性調整,如定向進化。

目前,ProteoGAN 的主要應用:用比以前可能的距離已知序列空間更遠的候選者進行蛋白質篩選的擴展,但比其他方法的相對新穎的候選者更可能具有功能。

展望:調理可能使新蛋白質功能的設計成為可能

作為一個有趣的前景,該團隊提供了關於 OOD 生成的初步評估。以多個標籤為條件的模型通常旨在模擬給定標籤的蛋白質的聯合分佈,即執行所有指定功能的蛋白質。因此,研究人員假設條件機制可用於將以前不相關的功能標記組合成一種蛋白質,這將能夠設計出具有以前看不見的功能的全新類型的蛋白質。

研究人員強調這個目標沒有明確地建立在條件機制中,因此它不適合最佳化衝突屬性。但是,正交屬性的組合可能是允許的。雖然同樣在這裡,生物實施是不可避免的來證明這一概念,但研究人員可以報告 ProteoGAN 和 CVAE 在五個保留標籤組合上顯示出有希望的 Top-X 精度。這一概念的進一步發展將為生物技術提供新的工具。

圖示:具有 OOD 功能的模型的頻譜嵌入 top10 準確度。(來源:論文)

程式碼和資料:https://github.com/timkucera/proteogan

論文連結:https://academic.oup.com/bioinformatics/article/38/13/3454/6593486?login=true