442個作者100頁論文!Google 發佈大模型新基準 BIG-Bench

一篇AI論文,442個作者。其中還專門留了一章節寫作者貢獻。100頁裡超過一半都是參考文獻……不是,現在都流行這樣式兒的論文嗎?

這不,谷歌最新發布的論文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。

於是作者那一欄就變成了這樣……

於是作者那一欄就變成了這樣……

來自132個機構的研究學者,耗時兩年提出了一個大語言模型新基準BIG-bench

並在此基礎上評估了OpenAI的GPT模型,Google-internal dense transformer架構等,模型規模橫6個數量級。

最終結果顯示,模型性能雖然隨著規模的擴大而提高,但跟人類的表現相差還很遠。

對於這項工作,Jeff Dean轉發點贊:Great Work

大語言模型新基準

來康康這篇論文究竟說了什麼。

隨著規模的擴大,模型的性能和質量都有一定的改進,這當中可能還存在一些變革性影響,但這些性能此前都沒有很好的描述。

現存的一些基準都有一定的侷限性,評估範圍比較狹窄,性能分數迅速達到飽和。

比如SuperGLUE,在該基準推出後的18個月內,模型就實現了「超過人類水平」的性能。

基於這樣的背景,BIG-bench就誕生了

基於這樣的背景,BIG-bench就誕生了。

目前它由204個任務組成,內容涵蓋語言學、兒童發展、數學、常識推理、生物學、物理學、社會偏見、軟體開發等方面的問題。

此外還有個人類專家評審團,也執行了所有任務,以提供基線水平。

為了方便更多機構使用,研究人員還給出了BIG-bench Lite,一個小型但有代表性的任務子集,方便更快地評估。

以及開源了實現基準API的程式碼,支持在公開可用的模型上進行任務評估,以及新任務的輕量級創建。

最終評估結果可以看到,規模橫跨六個數量級,BIG-bench上的總體性能隨著模型規模的擴大、訓練樣本數量的增加而提高。

但跟人類基線水平相比,還是表現得比較差。

但跟人類基線水平相比,還是表現得比較差

具體在一些任務上,模型性能會隨著規模的增加而平穩地提高。但有時候,會在特定規模上突然出現突破性表現。

此外,它還可以評估模型存在的社會偏見

此外,它還可以評估模型存在的社會偏見。

此外,它還可以評估模型存在的社會偏見

此外,他們還意外發現模型還可以get一些隱藏技能。比如,如何在國際象棋中合乎規則的移動。

作者貢獻寫了14頁

值得一提的是,可能因為作者過多,論文最後還專門留了一章寫作者貢獻。

洋洋灑灑的寫了14頁,其中包括核心貢獻者、Review的、提供任務的……

剩下的,還有50頁的參考文獻

剩下的,還有50頁的參考文獻。

好了,感興趣的旁友可戳下方連結康康論文。

論文連結:
https://arxiv.org/abs/2206.04615
GitHub連結:
https://github.com/google/BIG-bench
參考連結:
https://twitter.com/jaschasd/status/1535055886913220608

白交 發自 凹非寺,量子位 | 公眾號 QbitAI

相關文章

不喜歡iPhone的人,救星來了

不喜歡iPhone的人,救星來了

全新Pixel的AI融合技術,再次推進計算攝影的能力邊界。 —— 文|杜晨 編輯|VickyXiao 圖片來源 | Google 美國時間今...

從此,Google 再無 Brain

從此,Google 再無 Brain

世界上最好的 AI Lab,是怎麼走向失敗的? 作者 | Founder Park AI Labs 正在捲土重來,產業界比以往幾十年都更加重...

科普 | 叔塊驗證與網路安全性

科普 | 叔塊驗證與網路安全性

來源 | 以太坊愛好者 責編 | 晉兆雨 頭圖 | 付費下載於視覺中國 在一個共識協議中,最簡單的錯誤也會導致災難。 我準備開一個系列,講解...