一位論文作者火了,ChatGPT等大型語言模型何時能成為論文合著者?

有沒有一種可能,ChatGPT 在學術論文中署名是理所應當的?

ChatGPT 自發布以來一直受到關注,被認為是當前最強大的語言模型之一。它的文字生成能力已經不輸人類,甚至有機器學習頂會為此明令禁止研究者使用 ChatGPT 編寫論文。

但是近期有一篇論文居然在作者一欄明確署名 ChatGPT,這是怎麼回事?

這篇論文是發表在醫學研究論文平臺 medRxiv 上的《Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models》,ChatGPT 是論文的第三作者。

論文地址:https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2

從論文題目就能看出,這篇論文的主要內容是研究 ChatGPT 在美國醫師執照考試 (USMLE) 中的表現。實驗結果表明,在沒有經過任何專門的訓練或強化的情況下,ChatGPT 在所有考試中的成績均達到或者接近通過門檻。並且,ChatGPT 生成的答案表現出高度的一致性和洞察力。該研究認為大型語言模型可能有助於醫學教育,並可能有助於臨床決策。

從研究的內容看,ChatGPT 似乎更像是一個研究對象,就像Twitter網友說的:「如果人類研究者為實驗結果做出貢獻,那他們當然是論文合著者,但是模型和演算法還沒有這種先例。」

不過,評論區馬上就有另一位網友反駁他:之前一篇名為《Rapamycin in the context of Pascal’s Wager: generative pre-trained transformer perspective》的論文不僅署名了,ChatGPT 甚至還是第一作者。

這篇論文收錄在美國國立衛生研究院(NIH)的 Oncoscience 中。不過,從論文作者貢獻中,我們發現,這篇論文的大部分內容確實是由 ChatGPT 生成的 —— 論文第二作者 Alex Zhavoronkov 詢問 ChatGPT 與研究主題有關的問題,ChatGPT 自動生成大量觀點及解釋,然後由 Alex Zhavoronkov 來審核 ChatGPT 生成的內容。此外,ChatGPT 還協助修改論文格式。

《Rapamycin in the context of Pascal’s Wager: generative pre-trained transformer perspective》論文內容截圖。

在決定論文署名時,Alex Zhavoronkov 聯繫 OpenAI 聯合創始人兼 CEO Sam Altman 進行了確認,最終以 ChatGPT 作為第一作者來發表這篇論文。這說明大型語言模型等強大的 AI 系統未來將對學術工作做出有意義的貢獻,甚至有能力成為論文合著者。

然而,讓大型語言模型編寫學術論文也存在一些弊端,比如機器學習頂會 ICML 表示:「ChatGPT 接受公共資料的訓練,這些資料通常是在未經同意的情況下收集的,這會帶來一系列的責任歸屬問題。」

近期在西北大學 Catherine Gao 等人的一項研究中,研究者選取一些發表在美國醫學會雜誌(JAMA)、新英格蘭醫學雜誌(NEJM)、英國醫學期刊(BMJ)、《柳葉刀》和《Nature Medicine》上的人工研究論文,使用 ChatGPT 為論文生成摘要,然後測試審稿人是否可以發現這些摘要是 AI 生成的。

實驗結果表明,審稿人僅正確識別了 68% 的生成摘要和 86% 的原始摘要。他們錯誤地將 32% 的生成摘要識別為原始摘要,將 14% 的原始摘要識別為 AI 生成的。審稿人表示:「要區分兩者出奇地困難,生成的摘要比較模糊,給人一種公式化的感覺。」

這一實驗結果說明人類研究員已經難以分辨文字是 AI 生成還是人類撰寫的,這並不是一個好現象,AI 似乎「矇騙過關」了。

然而,到目前為止,語言模型生成的內容還不能完全保證其正確性,甚至在一些專業領域的錯誤率是很高的。如果無法區分人工編寫內容和 AI 模型生成內容,那麼人類將面臨被 AI 誤導的嚴重問題。

參考連結:

https://twitter.com/rasbt/status/1613652370113855488

https://pubmed.ncbi.nlm.nih.gov/36589923/

https://www.biorxiv.org/content/10.1101/2022.12.23.521610v1

https://www.nature.com/articles/d41586-023-00056-7

相關文章