arXiv 論文數破200萬!沒有arXiv,就沒有21世紀的科研突破

2022年1月3日,論文預印本平臺arXiv的論文數量突破200萬篇。30年來,arXiv預料之外的成功,給科學界帶來巨大助益,但現在也面臨了維持艱難的窘境。

2022年1月3日,論文預印本平臺arXiv發佈了自創始以來的第200萬篇論文,論文題目是《仿射迭代和翹曲效應:多種方法論》(Affine Iterations and Wrapping Effect: Various Approaches)。

ArXiv經歷了爆炸式發展,創始人保羅·金斯帕格得知這個訊息後說:「網站用了23年半獲得100萬份論文,又用了7年獲得200萬份論文,或許之後只需要4年半就能獲得300萬份。」

1991年來arXiv論文投稿量的變化

康奈爾大學文理學院數學教授、arXiv顧問委員會成員塔拉·霍姆稱:「這200萬份提交的論文代表著人類有200萬個機會來推動自身的理解前沿。在我們慶祝這一成就的同時,也必須繼續努力,使學科與研究更容易被世界各地的研究人員和公眾所接受。」

論文不發在arXiv上等於不存在

成立於1991年前的arXiv是「開放存取運動」的先驅,讓全世界學者使用此平臺來分享自己的研究,並閱讀其他人提交的論文。

arXiv上有大量的論文預印本,它們是尚未經過同行評議、尚未發表或不發表在期刊上的文章。論文發表後也能以修訂版形式出現在arXiv上。

現在,arXiv已經是全球頂級科研論文庫,每天會收到8個主要主題領域的、多達1200份新提交的論文,此外還有多達1000份的修訂和其他更新。arXiv改變了多個學科的研究方式。

物理學界有說法:「如果論文不在arXiv上,那就等於不存在。」

數學界的塔拉·霍姆也說:「如果我問同事,『你的所有或大部分論文都arXiv上嗎?』,他們會不相信地看著我,『當然,我所有論文都在arXiv上。』arXiv已經成為數學研究的命脈。」

arXiv論文投稿量的分學科分佈

arXiv論文投稿量的分學科分佈

網站上的論文預印本主要集中在理科方向:數學、電腦科學、定量生物學、計量金融學、統計學,以及物理學。這些研究的提交者範圍從研究生直到諾貝爾獎獲得者都有。四名全職工作人員、世界各地的196名志願版主以及自動系統對提交的論文進行篩選和整理

ArXiv,世界科研人的理想文庫

ArXiv為科研人員帶來了理想中的文庫:免費發表和閱讀、快速發表、包含學科內幾乎所有經典論文、全庫檢索、隨時隨地訪問。

在 arXiv 誕生前,論文預印本只在學術界小圈子裡用電子郵件或人工分發。對於遞交到科學期刊的論文,作者通常需要等待半年甚至更長時間才能出版。

而有了arXiv後,遞交到平臺的論文通常能在一天之內上線。作者們更願意會將手稿上傳至 arXiv,然後在同行評審期刊上發表最終版本。

而對於使用它的研究者來說,arXiv是日常工作流程的一部分:他們早餐時可能會同時翻閱上面的最新文章,中午提交一篇自己的論文,晚間從平臺下載閱讀材料。有天體物理學家描述了arXiv對學科研究的提速:「上週五一架天文望遠鏡發現了新東西。下個週一相關論文上線。到了週二,就有反駁週一文章的論文出現。」

1991年來arXiv論文的下載量變化

研究成果快速流通的價值在2020年變得極為顯著,因為新冠大流行使研究速度成為生死攸關的問題。arXiv現在擁有5400多份與COVID-19有關的提交材料。

這一價值在2020年變得極為明顯,因為新冠大流行使研究速度成為生死攸關的問題。arXiv現在擁有5400多份與COVID-19有關的提交材料。

arXiv還使學界更加平等。無論是世界頂尖大學的知名教授、還是不知名機構日夜奔忙的博士後,抑或是窮國缺研究資金的學者。所有人的新成果都可以被其他研究者立即看到,所有人也都可以跟進批評或改善他人的研究。

可以說,沒有arXiv,很多學科就不會迎來21世紀的革命性變化。

普林斯頓的斷網大雨,淋出了arXiv

如此重要的平臺,居然是被大學的多雨與劣質網路催生的。

按arXiv的主要創辦者之一、宇宙物理學家喬安妮·科恩的回憶,從1989年秋天當時供職於普林斯頓大學的自己無法參加學術會議、託同事保羅·金斯帕格用電子郵件轉發會議論文起,自己的論文郵件轉發群組就越發龐大。

在1990年代初,這種電郵轉發方式已經面臨了太多阻礙。1991年前,每臺收件電腦都是電子郵件轉發鏈中的必要節點。每次普林斯頓大學下雨,網路都會斷線。當雨停時,科恩就會收到一大堆提醒通知,告訴她郵件沒有發出去。

當時的電子郵件還有字數與篇幅限制,科恩要把較長的論文分成兩部分發送,否則也會收到海量的發送錯誤提示。

保羅·金斯帕格

保羅·金斯帕格

而且越發國際化的郵件轉發鏈也給預印本的電郵流通方式帶來挑戰。1991年海灣戰爭時,受波及的以色列學者們就只能在每天的特定時間才能連上國際通訊網路。

原蘇聯消失時的變故也讓俄語學界一時聯不上網,塵埃落定後的俄語學界對斷網時的預印本郵件進行了補償式下載,結果癱瘓了多家大學的伺服器。

1991年夏天,金斯帕格問科恩要不要把郵件發送的方式自動化,他能幫忙寫程序。在科恩同意後的幾天,金斯帕格就寫好了一個程序腳本,這就是arXiv的雛形。

藍色部分為現在向arXiv投稿的國家與地區

藍色部分為現在向arXiv投稿的國家與地區

arXiv的域名,最開始是跟著金斯帕格的職業路徑在變。1991年時,金斯帕格供職於美國洛斯阿拉莫斯國家實驗室,所以arXiv就儲存在洛斯阿莫斯國家驗室的伺服器上,域名是會讓圈外人浮想聯翩的xxx.lanl.gov。

洛斯阿莫斯國家實驗室並沒有持續支持此項目的熱情。到了2001 年,換僱主的金斯帕格將網站轉移到新東家康奈爾大學,並更名為arXiv。直到今日,arXiv一直託管在康奈爾大學,主要由美國美國西蒙斯基金會(Simons Foundation)和國際學術機構們的資金支撐。

arXiv的困境:缺錢了

不過arXiv就和其他著名的線上知識共享項目一樣,面臨著相似的障礙:缺錢、人少、活多。

arXiv主要資金由西蒙斯基金會提供,此外還有來自捐助者和243個圖書館、大學、研究組織和專業協會的捐款。這種託缽化緣式的資金來源方式,在2021財年僅能為arXiv提供2,423,994美元的預算。

無怪有學界人士不平:「支撐全世界科研的arXiv預算200萬美元出頭,業績乏善可陳的美國國家科學基金會預算永遠不會低於70億美元,世界真的很搞笑。」

按arXiv團隊的核心成員稱,人手與資金短缺的困境已經持續數年,而現在的開支僅能支持少量員工幫助196名志願審核員每天處理來自150個分類學科1200份投稿。

金斯帕格於2021年8月撰文,披露arXiv早已靠能篩選語言標記的機器學習演算法來支撐人工審核。程序能在幾毫秒內全面評估全文內容,包括對照整個後臺資料庫,檢查每份新提交的文件是否有警示性字眼與重複文字。現在,arXiv大部分內部人力用於調解和裁決各種人類和AI的疏漏。

即便如此,由於審核失誤,arXiv無端拒稿的負面訊息仍然時有出現。最近一次是2021年8月,arXiv審核員拒絕了中國知名科學家陸朝陽和潘建偉的一篇論文,兩人分別在量子研究領域貢獻了多個「第一」。按義大利博洛尼亞大學理論物理學家羅伯託·卡薩迪奧的獨立評估,稿件完全在合理討論範圍內,拒稿沒有理由。

arXiv的科學總監稱,未來不大可能在arXiv建立同儕評審,只好預計在未來幾年內將審核員增加到至少300人,這樣每個學科分類至少有兩人負責。

arXiv重塑了世界科研的路徑,希望這條路能順暢延續下去。

參考資料:

https://news.cornell.edu/stories/2022/01/arxiv-hits-2m-submissions

https://physicstoday.scitation.org/do/10.1063/PT.6.4.20211108a/full/

https://www.scientificamerican.com/article/arxiv-org-reaches-a-milestone-and-a-reckoning/

https://arxiv.org/about/reports-financials

相關文章

暗光子:開啟暗物質世界的一枚鑰匙?

暗光子:開啟暗物質世界的一枚鑰匙?

暗物質是當今物理學前沿的基本問題之一。物理學家提出了多種暗物質模型,本文將介紹其中一種——暗光子。它是一種向量規範玻色子,有著與光子類似的特...

深度學習撞牆了

深度學習撞牆了

早在 2016 年,Hinton 就說過,我們不用再培養放射科醫生了。如今幾年過去,AI 並沒有取代任何一位放射科醫生。問題出在哪兒? &g...