誰發表了最具影響力的AI研究?Google遙遙領先,OpenAI成果轉化率完勝DeepMind

機器之心編輯部

統計了近三年引用量最高的 100 篇論文,我們發現……

誰在發表最具影響力的 AI 研究?在如今「百花齊放」的時代,這個問題極具挖掘空間。

你可能會猜到一些結論:比如Google、微軟、OpenAI、DeepMind 這些頂級機構,類似這樣的結論只猜對了一半,還有另外一些資訊,向我們揭露了原本不為人知的結論。

隨著 AI 創新的飛速發展,儘快獲取一些「情報」是至關重要的。畢竟幾乎沒人有時間去閱讀所有的東西,但可以肯定的是,本文整理的這些論文具備改變人工智慧技術發展方向的潛力。

對研發團隊影響力的真正考驗當然是技術如何落地在產品中,OpenAI 在 2022 年 11 月底發佈了 ChatGPT,震撼了整個領域,這是繼他們 2022 年 3 月的論文「利用人類反饋訓練遵循指令的語言模型」(Training language models to follow instructions with human feedback)之後的又一次突破。

如此迅速的產品落地是罕見的。所以,為了洞察到更多資訊,近日,Zeta Alpha 的統計採用了一個經典的學術指標:引用次數

對 2022 年、2021 年和 2020 年每年被引用次數最多的 100 篇論文的詳細分析,可以深入了解目前發表最具影響力的 AI 研究的機構和國家 / 地區。一些初步結論是:美國和Google仍然占主導地位,DeepMind 在這一年也取得了輝煌的成就,但考慮到產出量,OpenAI 在產品影響和研究方面確實處於前列,並能快速和廣泛地被引用。

資料來源:Zeta Alpha

資料來源:Zeta Alpha。

如上圖所示,另外一個重要結論是:中國在研究引用量上的影響力排行第二,但與美國相比仍存在差距,並不像很多報道中描述的那樣「追平甚至超越」。

利用來自 Zeta Alpha 平臺的資料,然後結合人工策劃,本文收集了 2022 年、2021 年和 2020 年人工智慧領域被引用次數最多的論文,並分析了作者的所屬機構和國家 / 地區。這使得能夠按照研發影響而不是純粹的出版資料對這些論文進行排名。

為了創建分析結果,本文首先在 Zeta Alpha 平臺上收集了每年被引用次數最多的論文,然後手動檢查首次發表日期(通常是 arXiv 預印本),以便將論文放在正確的年份中。然後通過在 Semantic Scholar 上挖掘高引用率的人工智慧論文來補充這個名單,因為 Semantic Scholar 的覆蓋面更廣,而且能夠按引用次數排序。這主要是發現了來自高影響力的出版商(如 Nature、Elsevier、Springer 和其他期刊)之外的論文。然後,將每篇論文在Google學術上的引用次數作為代表指標,並按這個數字對論文進行排序,得出一年中的前 100 名。對於這些論文,本文使用了 GPT-3 來提取作者、隸屬機構和國家 / 地區,並手動檢查這些結果(如果國家 / 地區在出版物中不明顯,就採用該組織總部所在的國家 / 地區)。如果一篇論文有來自多個機構的作者,每個機構算一次。

看了這份排行榜之後,大佬 Yann LeCun 表示很欣慰:「在 Meta AI,我們傾向於出版質量而不是數量。這就是為什麼在 2022 年被引用最多的 100 篇人工智慧論文中,Meta AI 撰寫(或共同撰寫)了 16 篇,僅次於Google的 22 篇,排名第二。我們的研究正在對社會產生巨大的影響。(此外,紐約大學的排名也很贊)。」

所以,剛才談論的這些 Top 論文有哪些?

在深入了解這些數字之前,讓我們先了解一下過去三年的熱門論文。相信你會認出其中的幾篇。

2022 年熱門論文

1、AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models

  • 論文連結:https://academic.oup.com/nar/article/50/D1/D439/6430488

  • 機構:DeepMind

  • 引用次數:1372

  • 主題:Using AlphaFold to augment protein structure database coverage.

2、ColabFold: making protein folding accessible to all

  • 論文連結:https://www.nature.com/articles/s41592-022-01488-1

  • 引用次數:1162

  • 主題:An open-source and efficient protein folding model.

3、Hierarchical Text-Conditional Image Generation with CLIP Latents

  • 論文連結:https://arxiv.org/abs/2204.06125

  • 機構:OpenAI

  • 引用次數:718

  • 主題:DALL・E 2, complex prompted image generation that left most in awe

4、A ConvNet for the 2020s

  • 論文連結:https://arxiv.org/abs/2201.03545

  • 機構:Meta,UC 柏克萊

  • 引用次數:690

  • 主題:A successful modernization of CNNs at a time of boom for Transformers in Computer Vision

5、PaLM: Scaling Language Modeling with Pathways

  • 論文連結:https://arxiv.org/abs/2204.02311

  • 機構:Google

  • 引用次數:452

  • 主題:Google’s mammoth 540B Large Language Model, a new MLOps infrastructure, and how it performs

2021 年熱門論文

1、《Highly accurate protein structure prediction with AlphaFold》

  • 論文連結:https://www.nature.com/articles/s41586-021-03819-2

  • 機構:DeepMind

  • 引用次數:8965

  • 主題:AlphaFold, a breakthrough in protein structure prediction using Deep Learning

2、《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》

  • 論文連結:https://arxiv.org/abs/2103.14030

  • 機構:微軟

  • 引用次數:4810

  • 主題:A robust variant of Transformers for Vision

3、《Learning Transferable Visual Models From Natural Language Supervision》

  • 論文連結:https://arxiv.org/abs/2103.00020

  • 機構:OpenAI

  • 引用次數:3204

  • 主題:CLIP, image-text pairs at scale to learn joint image-text representations in a self supervised fashion

4、《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》

  • 論文連結:https://dl.acm.org/doi/10.1145/3442188.3445922

  • 機構:U. Washington, Black in AI, The Aether

  • 引用次數:1266

  • 主題:Famous position paper very critical of the trend of ever-growing language models, highlighting their limitations and dangers

5、《Emerging Properties in Self-Supervised Vision Transformers》

  • 論文連結:https://arxiv.org/pdf/2104.14294.pdf

  • 機構:Meta

  • 引用次數:1219

  • 主題:DINO, showing how self-supervision on images led to the emergence of some sort of proto-object segmentation in Transformers

2020 年熱門論文

1、《An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale》

  • 論文連結:https://arxiv.org/abs/2010.11929

  • 機構:Google

  • 引用次數:11914

  • 主題:The first work showing how a plain Transformer could do great in Computer Vision

2、《Language Models are Few-Shot Learners》

  • 論文連結:https://arxiv.org/abs/2005.14165

  • 機構:OpenAI

  • 引用次數:8070

  • 主題:This paper does not need further explanation at this stage

3、《YOLOv4: Optimal Speed and Accuracy of Object Detection》

  • 論文連結:https://arxiv.org/abs/2004.10934

  • 機構:Academia Sinica, Taiwan

  • 引用次數:8014

  • 主題:Robust and fast object detection sells like hotcakes

4、《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

  • 論文連結:https://arxiv.org/abs/1910.10683

  • 機構:Google

  • 引用次數:5906

  • 主題:A rigorous study of transfer learning with Transformers, resulting in the famous T5

5、《Bootstrap your own latent: A new approach to self-supervised Learning》

  • 論文連結:https://arxiv.org/abs/2006.07733

  • 機構:DeepMind,Imperial College

  • 引用次數:2873

  • 主題:Showing that negatives are not even necessary for representation learning

領先機構排行

讓我們來看看一些領先的機構在前 100 名的論文數量上是如何排行的:

Google一直是最強大的參與者,其次是 Meta、微軟、加州大學柏克萊分校、DeepMind 和史丹佛。雖然如今的工業界在人工智慧研究中「呼風喚雨」,單一的學術機構不會產生那麼大的影響,但這些機構的尾巴要長得多,所以當我們按組織類型進行彙總時,就會達到平衡。

在研究總量方面,過去三年Google居首位,清華大學、卡耐基梅隆大學、麻省理工學院、史丹佛大學等高校排名靠前,而微軟位居第三位。整體來看,學術機構的研究數量是要多於業界科技企業的,而Google、微軟這兩大科技巨頭近三年發表的研究數也是居於高位。

實際上,Google的科研實力一直很強。2017 年,Google發表論文《Attention Is All You Need》,標誌著 transformer 的問世。直到今天,transformer 依然是包括 ChatGPT 在內的大部分 NLP 和 CV 模型的架構基礎。

上個月,在 Bard 發佈之際,Google CEO Sundar Pichai 也在一份公開信中表示:「Google AI 和 DeepMind 推動了最先進技術的發展。我們的 Transformer 研究項目和我們 2017 年的領域論文,以及我們在擴散模型方面的重要進展,是當前許多生成式 AI 應用程序的基礎。」

當然,作為新晉頂流 ChatGPT 背後的公司,OpenAI 近三年的研究成果轉化率(Conversion Rate)是具有絕對優勢的。最近幾年,OpenAI 的大多數研究成果都引起了極大的關注,特別是在大規模語言模型方面。

2020 年,OpenAI 發佈了 GPT-3,這個 1750 億參數的大規模語言模型在一定程度上顛覆了語言模型領域的遊戲規則,因為它解決了許多大規模語言模型中的難題。GPT-3 掀起了一場大規模語言模型的狂潮。幾年來,語言模型的參數規模不斷被打破,人們一直在探索大規模語言模型的更多潛力。

2022 年底,ChatGPT 橫空出世,它引起了人們對文字生成和 AI 對話系統的高度關注。特別地,ChatGPT 在生成知識型內容和生成程式碼方面已經表現出非常高的能力。在Google、微軟陸續宣佈將類似 ChatGPT 的功能集成到下一代搜尋引擎後,ChatGPT 被認為將引領一場 AIGC 和智慧工具的新變革。

最後,我們來看一下 2022 年被引用次數最多的 100 篇論文具體有哪些:

此處還增加了Twitter提及次數,這有時被視為早期影響指標。但到目前為止,相關性似乎很弱。還需要進一步的工作。

原文連結:https://www.zeta-alpha.com/post/must-read-the-100-most-cited-ai-papers-in-2022

ChatGPT及大模型技術大會

機器之心將於3月21日在北京舉辦「ChatGPT 及大模型技術大會」,為圈內人士提供一個專業、嚴肅的交流平臺,圍繞研究、開發、落地應用三個角度,探討大模型技術以及中國版 ChatGPT 的未來。

屆時,機器之心將邀請大模型領域的知名學者、業界頂級專家擔任嘉賓,通過主題演講、圓桌討論、QA、現場產品體驗等多種形式,與現場觀眾討論大模型及中國版 ChatGPT 等相關話題。

閱讀原文,立即報名。

相關文章

涉嫌壟斷,中國知網被立案調查

涉嫌壟斷,中國知網被立案調查

編輯:蛋醬 知網「一家獨大」的時代可能要過去了。 持續了數月的「聲討知網」風波,終於迎來了重要的一步進展。 5 月 13 日下午,中國市場監...