數字新基建:用AI幫助人們整理海量的論文

有研究顯示,科學家經常需要花費佔四分之一甚至更多的工作時間來搜尋和閱讀相關的科學文獻,以了解其中的研究方法和結果,從而對自己下一步的研究計劃進行有效的修正。在學術論文數量飛速增長的當下,尋找與研究領域相關的研究論文並提取相關資訊是一個不小的挑戰。

卡內基梅隆大學軟體研究所的投資者,企業家、兼職教授Ganesh Mani和艾倫AI研究所的博士後研究員湯姆·霍普(Tom Hope)認為,科學界論文數量井噴,僅僅依靠研究者本身的精力很難完全跟上相關領域的發展,需要有新方法來幫助人們對這些資訊進行篩選,潛在的解決方案包括將人類專業知識與AI相結合的一種方法,以與不斷擴大的知識庫保持同步。例如,人工智慧可以用來總結和收集關於某個主題的研究,而人類則可以用來整理研究結果。

病毒的大流行帶來的緊迫的研究壓力

病毒的大流行帶來的緊迫的研究壓力

一個現實的例證是有關新冠病毒的研究。他們的統計表明,與疾病傳播、治療方案、臨床試驗和經濟影響相關的同行評審出版物的預印本數量呈指數增長且評審週期縮短。到5月初,(醫學,生物,化學)arXivs中有4000多個預印本,到8月中旬已增長到8000多個,其中包含「 COVID-19」或「 SARS-CoV-2」字樣,而在14個病毒學期刊上,同行評審和發表期刊文章的平均時間從117天縮短至60天。有關病毒大流行帶來的附帶影響的研究,例如由於檢疫引起的抑鬱增加或來自減少排放的氣候變化資料,也增加了手稿的數量。

面對如此之多的研究成果,科學家想要從中找出與自己的研究領域相關的前沿資訊或者是有啟發性的其他學科的成果,可能已經不是多花點時間能解決的了。

面對資訊洪流,人類顯得渺小

科學家通常透過學術搜尋引擎中的文章列表來搜尋文獻。搜尋引擎擅長快速查找與特定目標查詢相關的文件。但是如果潛在的有效資訊研究人員根本不知道呢?以前有關冠狀病毒的研究工作以及更廣泛的生物學和醫學研究工作可能包含有價值的知識,可以將過去的知識與新的研究聯繫起來。如此豐富的資訊既代表著巨大的機遇,也帶來了新的挑戰。

艾倫人工智慧研究所和語言學者創建了一個有關COVID-19的開放研究資料集(CORD-19),這是一種有關新冠病毒的不斷增長的論文集(目前有13萬篇摘要以及供多個研究小組使用的全文論文)。

艾倫人工智慧研究所與華盛頓大學合作,使用這些資料發佈了一個名為SciSight的工具,這是一種由AI驅動的圖形視覺化工具,可實現快速直觀的探索生物醫學實體(例如蛋白質,基因,細胞,藥物,疾病和患者特徵)之間的關聯以及在該領域工作的不同研究小組之間的關聯。它有助於促進協作和發現,並減少冗餘。例如,在SciSight中,在圖1的左側顯示了與「氯喹」有關的疾病和化學物質的網路。使用者還可以透過搜尋主題,從屬關係或作者來找到新的組及其工作方向,如右圖1所示。

圖1. 在SciSight中的關聯探索

圖1. 在SciSight中的關聯探索

在這個資料集中,儘管某些概念(例如基因序列,化學結構,植物分類法)具有標準化的通用術語,但圍繞大量科學概念制定標準仍需進行大量工作,尤其是考慮到新材料,新工藝和新方法的不斷出現。同時,作者認為還應該鼓勵採用標準化的雙軌制手稿提交框架:1.便於人類理解的,語言活潑的一般介紹論文;2.使用標準化術語、概念的論文的機器可讀版本,以及結構,尤其是表格,圖形,方法和結果說明。這將大大提高人工智慧獲取有效資訊的效率,並將其有機的與已有的論文資料進行連結。

同時作者認為需要對整個論文出版框架進行重構,在每個環節都進行一定的改進和革新,以幫助研究人員應對整個社會對於科學界的迫切期待。

階段建議
出版前根據標準化術語(和字典)提取元資料
鼓勵提交兩個版本的稿件:人類可讀和機器可讀(不僅限於程式碼)
確定最佳同行評議者並提供現有技術搜尋(由編輯完成)
出版物在其他文獻的背景下將新論文連結化,以便與相關工作進行「比較和對比」
認定為新穎或支持現有工作(增強對可複製性的信心)
突出顯示負面結果(提示同行不要再進入盲區)
出版後促進發布後同行評論
對註釋進行解釋,並連結到較新的(相關)論文

作者認為要實現上述願景,需要一整套經過精心設計的基礎制度安排,以及供人類科學家和人工智慧進行協作的軟體環境,建立這樣的基礎設施將有助於全世界應對下一個需要全人類共同面對的戰略機遇或重大挑戰。

參考文獻:

1.https://phys.org/news/2020-09-pandemic-spawns-infodemic-scientific-literature.html

2.doi:10.1016/j.patter.2020.100101