5300億NLP模型「威震天-圖靈」發佈,由4480塊A100訓練,微軟英偉達聯合出品

豐色 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

5300億參數!全球最大規模NLP模型誕生。

微軟聯手英偉達推出,名叫威震天-圖靈自然語言生成模型(Megatron Turing-NLG)。

據他們介紹,這樣的量級不僅讓它成為全球規模最大,同時也是性能最強的NLP模型。

訓練過程一共使用了4480塊英偉達A100 GPU,最終使該模型在一系列自然語言任務中——包括文字預測、閱讀理解、常識推理、自然語言推理、詞義消歧——都獲得了前所未有的準確率。

三倍規模於GPT-3

此模型簡稱MT-NLG,是微軟Turing NLG和英偉達Megatron-LM兩者的「繼任者」。

Turing NLG由微軟於2020年2月推出,參數為170億;Megatron-LM來自英偉達,2019年8月推出,參數83億。

它倆在當時分別是第一、二大規模的Transfomer架構模型。

我們都知道大參數規模的語言模型效果會更好,但訓練起來也很有挑戰性,比如:

  • 即使是最大容量的GPU,也存不下如此規模的參數;

  • 如果不特別注意最佳化演算法、軟體和硬體堆疊,那麼所需的大量計算操作可能會導致訓練時間過長。

那這個參數已是GPT-3三倍的MT-NLG又是如何解決的呢?

答案就是汲取「兩家」所長,融合英偉達最先進的GPU加速訓練設備,以及微軟最先進的分散式學習系統,來提高訓練速度。

並用上千億個token構建語料庫,共同開發訓練方法來最佳化效率和穩定性。

具體來說,通過借鑑英偉達Megatron-LM模型的GPU並行處理,以及微軟開源的分散式訓練框架DeepSpeed,創建3D並行系統。

對於本文中這個5300億個參數的模型,每個模型副本跨越280個NVIDIA A100 GPU,節點內採用Megatron-LM的8路張量切片(tensor-slicing),節點間採用35路管道並行(pipeline parallelism)。

然後再使用DeepSpeed的資料並行性進一步擴展到數千個GPU。

最終在基於NVIDIA DGX SuperPOD的Selene超級計算機上完成混合精度訓練。

(該超級計算機由560個DGX A100伺服器提供支持,每個DGX A100有8個 NVIDIA A100 80GB Tensor Core GPU,通過NVLink 和 NVSwitch相互完全連接)。

該模型使用了Transformer解碼器的架構,層數、hidden dimension和attention head分別為 105、20480和128。

訓練所用資料集包括近20萬本書的純文字資料集Books3、問答網站Stack Exchange、維基百科、學術資源網站PubMed Abstracts、ArXiv、維基百科、GitHub等等,這些都是從他們先前搭建的Pile資料集中挑出的質量較高的子集。

最終一共提取了2700億個token。

最終一共提取了2700億個token

五大任務上的準確度測試

開發者在以下5大任務上對MT-NLG進行了準確度測試。

  • 在文字預測任務LAMBADA中,該模型需預測給定段落的最後一個詞。

  • 在閱讀理解任務RACE-h和BoolQ中,模型需根據給定的段落生成問題的答案。

  • 在常識推理任務PiQA、HellaSwag和Winogrande中,每個任務都需要該模型具有一定程度的常識了解。

  • 對於自然語言推理,兩個硬基準,ANLI-R2和HANS考驗先前模型的典型失敗案例。

  • 詞義消歧任務WiC需該模型從上下文對多義詞進行理解。

結果該模型在PiQA開發集和LAMBADA測試集上的零樣本、單樣本和少樣本三種設置中都獲得了最高的成績。

在其他各項任務上也獲得了最佳。

在其他各項任務上也獲得了最佳

除了報告基準任務的彙總指標外,他們還對模型輸出進行了定性分析,並觀察到,即使符號被嚴重混淆,該模型也可以從上下文中推斷出基本的數學運算。

當然,該模型也從資料中也提取出了刻板印象和偏見。微軟和英偉達表示也在解決這個問題。

另外,他們表示在生產場景中使用MT-NLG都必須遵守微軟的「負責任的AI原則」來減少輸出內容的負面影響,但目前該模型還未公開。

參考連結:

https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/

榜單徵集!6大獎項鎖定AI TOP企業

「2021中國人工智慧年度評選」報名中!本次評選將從公司、人物、產品三大維度尋找優秀的AI企業,歡迎大家掃碼報名參與。評選將於12月揭曉,期待與百萬從業者們,共同見證這些優秀企業的榮譽!

點選連結查看評選詳情:2021中國人工智慧年度評選開啟:讓更多人看到AI的真正價值

點這裡👇關注我,記得標星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見~

相關文章

黃仁勳把自己做成了虛擬娃娃

黃仁勳把自己做成了虛擬娃娃

明敏 發自 凹非寺量子位 報道 | 公眾號 QbitAI 英偉達是推出黃仁勳手辦了嗎??? 看上去還挺可愛的呢。 不過事情可沒有這麼簡單,接...

ChatGPT 背後的經濟賬

ChatGPT 背後的經濟賬

拿投資和賺錢之前,要先去了解下成本。 ChatGPT 能否取代 Google、百度這樣的傳統搜尋引擎?為什麼中國不能很快做出 ChatGPT...