英國皇家植物園採用機器學習預測植物抗瘧性,將準確率從 0.46 提升至 0.67

內容一覽:瘧疾是嚴重危害人類生命健康的重大傳染病,研究人員一直在致力於尋找新的植物源性抗瘧疾化合物,以研發相關藥物。近期英國皇家植物園利用機器學習演算法有效預測了植物抗瘧性,該研究成果目前已發表在《Frontiers in Plant Science》期刊上。

關鍵詞:植物學 抗瘧疾 支持向量

作者 | 緩緩

編輯 | 三羊

瘧疾是一種肆虐全球的寄生蟲病,它通過蚊媒傳播,其發病率以及致死率始終在蟲媒傳播疾病中居高不下。根據最新的《世界瘧疾報告》,2021 年全球瘧疾流行進一步加劇,全年共有 2.47 億例新發病例,預計死亡病例 61.9 萬人。

目前全球仍以藥物治療作為主要的瘧疾防治手段,並且很多藥物的抗瘧疾活性天然分子都來源於植物之中,因此,研究人員們一直致力於尋找新的植物源性抗瘧疾化合物,不過,為了達到這個目的,需要對大量的植物進行篩選和測試,這個過程非常耗時且昂貴。

近期,英國皇家植物園 (Royal Botanic Gardens, Kew) 及聖安德魯斯大學 (University of St Andrews) 的研究人員證明了機器學習演算法能夠有效預測植物抗瘧性,且準確率為 0.67,相較傳統試驗方法的 0.46,已有了明顯提升。目前,該研究成果已發表在《Frontiers in Plant Science》期刊上,標題為《Machine learning enhances prediction of plants as potential sources of antimalarials》。

該研究成果已發表在《Frontiers in Plant Science》上

資料集及抽樣偏差校正

本實驗重要目標之一是評估是否可以用植物特徵資料訓練機器學習模型來預測植物抗瘧活性。首先,研究人員提供了一個資料集,該資料集基於龍膽目的 3 個花卉植物科——夾竹桃科、馬錢科和茜草科的 21,100 個植物物種。這些植物已被發現含有許多生物鹼,如抗瘧生物鹼奎中的奎寧以及其異構體奎尼丁等。

圖 1:夾竹桃、馬錢和茜草科中含有抗瘧疾生物鹼的實例

A:在夾竹桃科植物中發現的一種生物鹼:Aspidocarpine。

B:在馬錢子科植物中發現的一種生物鹼:Strychnogucine。

C:在茜草科植物中發現的、現被廣泛用於抗瘧藥物中的生物鹼:Quinine(奎寧)。

資料集具體包括植物形態特徵、生物化學特徵、生長環境條件以及地理位置等資訊,下圖展現了這份資料集中二元特徵之間(只有兩種取值的特徵,如有毒/無毒)的關係。

圖 2:資料集中二元特徵間的關係

圖 2:資料集中二元特徵間的關係

X 軸:二元特徵。

Y 軸:每個特徵的平均值,其中每個特徵代表了不同的植物屬性,如是否有毒、是否被用作傳統藥物等。

如圖所示,所有植物物種中有 10% 被用作傳統藥物,而有毒植物物種有 77% 被用作傳統藥物,研究人員將這種差異稱為抽樣偏差,並且提出抽樣偏差是由民族植物法 (ethnobotanical approach) 造成的。

民族植物學是指通過尋找和研究當地居民用於治療疾病的植物來尋找藥用植物,但因為不同地區和不同文化之間存在差異,就可能會出現某一種或幾種具有抗瘧性的植物頻繁地在資料集裡出現,而導致其他可能具有抗瘧性的植物被忽略,這就是所謂的抽樣偏差。

為了更好地訓練模型,研究人員對抽樣偏差進行了校正,具體方式是對每個植物物種進行重新加權,即使用了反向概率加權 (Inverse Probability Weighting)

這樣每個物種樣本都能在模型訓練中被平等對待,從而提高資料集的代表性和模型的性能。

實驗成果展示

模型訓練及驗證

本次實驗中,研究人員訓練了基於支持向量 (SVC)、邏輯迴歸 (Logit)、XGBoot (XGB) 以及貝葉斯神經網路 (BNN)的 4 種機器學習模型,並將這些模型與 2 種民族植物學方法——尋找傳統抗瘧植物和尋找傳統藥用(不特定於瘧疾)植物進行比較。

對於基於 Logit、SVC 和 XGB 的 3 個模型,研究人員的訓練方法是通過 GridSearchCV 演算法對模型的超參數進行調整,並使用 F0.5 指標來評估模型性能。其中,研究人員對基於 Logit、SVC 的兩個模型調整了正則化參數 C 和 class_weight 參數;對基於 XGB 的模型,則調整了 max_depth 參數。

對於基於 BNN 的模型,研究人員使用了兩層分別有 10 個和 5 個的神經網路以及 tahn 激活函數 (activation function),又通過 100,000 個馬爾可夫鏈蒙特卡洛迭代 (Markov chain Monte Carlo iterations)來訓練模型。

在驗證階段,研究人員在兩種情況(沒有進行抽樣偏差校正和進行抽樣偏差校正)下采用 10 次迭代的 10 折分層交叉驗證(10 iterations of 10-fold stratified cross validation) 方法對模型性能進行評估。

實驗結果

首先是沒有進行抽樣偏差校正情況下,研究人員對篩選植物源性抗瘧化合物的實驗結果如下:

圖 3:沒有進行偏差校正情況下

圖 3:沒有進行偏差校正情況下

機器學習模型與 2 種民族植物法對比

如圖所示,總體來看,機器學習模型的平均得分比 2 種民族植物法都要高,並且能從資料特徵中預測抗瘧活性 (BNN: 0.66,XGB: 0.66,Logit: 0.62,SVC:0.65,Ethno (M): 0.57,Ethno (G): 0.50)。

進行了偏差校正情況下,研究人員對篩選植物源性抗瘧化合物的實驗結果如下:

圖 4:進行了偏差校正情況下

圖 4:進行了偏差校正情況下

機器學習模型與 2 種民族植物法對比

如圖所示,雖然由於對訓練和測試集增加了權重,使得模型性能的方差較高,但機器學習模型表現仍然比民族植物學方法要好。研究人員將傳統植物選擇法的準確率估計為 0.47,而機器模型的預測準確率則普遍高於這個數字 (BNN: 0.59,XGB: 0.63,Logit: 0.66,SVC: 0.67)。

不過,雖然此實驗成果展示了機器學習模型可以相對準確地篩選出具有抗瘧活性的植物,但研究人員稱,該實驗仍有需要改進的部分:

* 增加訓練資料:目前訓練資料集相對較小,需要增加更多的植物物種資料來進一步提高模型的性能。

* 解決抽樣偏差問題:雖然本實驗中已經試圖解決抽樣偏差問題,但仍需要發掘更多的偏差校正方法。

* 最佳化特徵選擇:需要進行更多的植物特徵選擇和最佳化。

* 進一步測試物種數量過少或樣本分佈不均衡的植物物種:對於現有資料中代表性不足的物種,需要進行更多的測試,以獲得更準確的結果。

英國皇家植物園:發現植物的力量

對於本項研究成果,英國皇家植物園院長表示:「我們的研究結果顯示了植物在生產新藥方面擁有巨大潛力。據估計,目前已知的維管植物物種有 34,300 種,但很多並沒有得到深入的科學研究。我們希望機器學習方法能夠應用在這方面,以尋找新的藥用化合物。並且這些成果也凸顯了保護生物多樣性和可持續發展自然資源的重要性。」

聞名於世的英國皇家植物園 (Royal Botanic Gardens, Kew) 通常被簡稱為「邱園」(Kew Gardens) 。邱園是國際知名植物研究與教育機構,由英國政府環境食品和鄉村事務部 (Department for Environment, Food and Rural Affairs, UK) 資助,它是一個非政府部門性質的公立團體。邱園的目標是:「保護生物多樣性,研發基於自然的解決方案,來應對人類面臨的全球性挑戰。」

大約在幾個月之前,有新聞報道致力於可持續發展的基金 Greensphere Capital 計劃對邱園投資 1 億英鎊,該筆投資將用於可持續農業以及招聘新的研究人員來研究植物和真菌科學、棲息地保護、農業及林業等項目。

相關文章

AI 加碼,超光學進入狂飆時代

AI 加碼,超光學進入狂飆時代

內容一覽:近年來,為了突破傳統光學研究的侷限性,光學與物理學交叉領域的一個新興技術超光學出現,並且展現出巨大的市場前景。在這門技術高速發展的...