機器之心編輯部
收購 Arm 還沒有定論,但英偉達的 Arm 架構 CPU 已經出現了。英特爾現在可能正感受到不一樣的壓力。
「只需一張 GeForce 顯示卡,每個學生都可以擁有一臺超級計算機,這正是 Alex Krizhevsky、Ilya 和 Hinton 當年訓練 AI 模型 AlexNet 的方式。通過搭載在超級計算機中的 GPU,我們現在能讓科學家們在 youxian 的一生之中追逐無盡的科學事業,」英偉達創始人兼執行長黃仁勳說道。
4 月 12 日晚,英偉達 GTC 2021 大會在線上開始了。或許是因為長期遠端辦公不用出門,人們驚訝地看到在自家廚房講 Keynote 的黃老闆居然留了一頭搖滾範的長髮:

如果你只是對他的黑色皮衣印象深刻,先對比一下 2019、2020 和 2021 的 GTC,老黃氣質越來越搖滾。如此氣質,黃仁勳今天推出的新產品肯定將會與眾不同。

「這是世界第一款為 terabyte 級別計算設計的 CPU,」在 GTC 大會上,黃仁勳祭出了英偉達的首款中央處理器 Grace,其面向超大型 AI 模型的和高效能運算。
英偉達也要做 CPU 了
Grace 使用相對能耗較低的 Arm 核心,但它又可以為訓練超大 AI 模型的系統提供 10 倍左右的性能提升。英偉達表示,它是超過一萬名工程人員歷經幾年的研發成果,旨在滿足當前世界最先進應用程序的計算需求,其具備的計算性能和吞吐速率是以往任何架構所無法比擬的。
「結合 GPU 和 DPU,Grace 為我們提供了第三種基礎計算能力,並具備重新定義資料中心架構,推進 AI 前進的能力,」黃仁勳說道。

Grace 的名字來自於電腦科學家、世界最早一批的程式設計師,也是最早的女性程式設計師之一的格蕾絲 · 赫柏(Grace Hopper)。她創造了現代第一個編譯器 A-0 系統,以及第一個高級商用計算機程序語言「COBOL」。計算機術語「Debug」(調試)便是她在受到從電腦中驅除蛾子的啟發而開始使用的,於是她也被冠以「Debug 之母」的稱號。

英偉達的 Grace 晶片利用 Arm 架構的靈活性,是專為加速計算而設計的 CPU 和伺服器架構,可用於訓練具有超過 1 萬億參數的下一代深度學習預訓練模型。在與英偉達的 GPU 結合使用時,整套系統可以提供相比當今基於 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英偉達自家的 DGX,使用的是 AMD 7 奈米制程的 Rome 架構 CPU。

據介紹,Grace 採用了更為先進的 5nm 製程,在內部通訊能力上,它使用了英偉達第四代 NVIDIA NVLink,在 CPU 和 GPU 之間提供高達 900 GB/s 的雙向頻寬,相比之前的產品提升了八倍。Grace 還是第一個通過錯誤校正程式碼(ECC)等機制利用 LPDDR5x 記憶體系統提供伺服器級可靠性的 CPU,同時提供 2 倍的記憶體頻寬和高達 10 倍的能源效率。在架構上,它使用下一代 Arm Neoverse 核心,以高能效的設計提供高性能。

基於這款 CPU 和仍未發佈的下一代 GPU,瑞士國家超級計算中心、蘇黎世聯邦理工大學將構建一臺名為「阿爾卑斯」的超級計算機,算力 20Exaflops(目前全球第一超算「富嶽」的算力約為 0.537Exaflops),將實現兩天訓練一次 GPT-3 模型的能力,比目前基於英偉達 GPU 打造的 Selene 超級計算機快 7 倍。
美國能源部下屬的洛斯阿拉莫斯國家實驗室也將在 2023 年推出一臺基於 Grace 的超級計算機。

Grace 可以說是英偉達在今年 GTC 上最引人關注的產品了,它高度特化的設計與通過 PCIe 連結的 x86 版 CPU-GPU 系統大為不同,進而可以實現更好的性能。
GPU+CPU+DPU,三管齊下
「簡單說來,目前市場上每年交付的 3000 萬臺資料中心伺服器中,有 1/3 用於運行軟體定義的資料中心堆疊,其負載的增長速度遠遠快於摩爾定律。除非我們找到加速的辦法,否則用於運行應用的算力將會越來越少,」黃仁勳說道。「新時代的計算機需要新的晶片、新的系統架構、新的網路、新的軟體和工具。」
除了造 CPU 的大新聞以外,英偉達還在一個半小時的 Keynote 裡陸續發佈了大量重要軟硬體產品,覆蓋了 AI、汽車、機器人、5G、實時圖形、雲端協作和資料中心等領域的最新進展。英偉達的技術,為我們描繪出了一幅令人神往的未來願景。

首先是用於訓練 Transformers 的框架—— NVIDIA Megatron。Transformers 已幫助開發者在自然語言處理領域取得了突破性進展。
面向醫藥領域,英偉達發佈了一些用於計算藥物研發加速庫 Clara Discovery 的新模型,並介紹了一個基於物理學和機器學習的頂尖藥物研發與材料科學計算平臺 Schrodinger。
在量子計算領域中,英偉達發佈了量子計算模擬環境 cuQUANTUM,其有助於加快有賴於量子位(或量子比特,能作為單個的 0 或 1 存在,也可以同時作為二者存在)的量子計算研究,為量子電路模擬器提供加速,從而助力研究人員設計出更完善的量子計算機。
為了保障現代化資料中心的安全,英偉達發佈了 Morpheus 資料中心安全平臺,其基於 NVIDIA AI、NVIDIA BlueField、Net-Q 網路遙測軟體和 EGX 而構建,能夠對完整的資料包進行實時檢測。
為加快對話式 AI 的發展,英偉達發佈了對話人工智慧——NVIDIA Jarvis 的新版本,其能夠實現語音識別、語言理解、翻譯和表達性語音,同時也支持了更多種類的語言。
推薦系統是用於搜尋、廣告、線上購物、音樂、書籍、電影、使用者生成內容和新聞等領域的引擎,為加快推薦系統的速度,黃仁勳宣佈 NVIDIA Merlin 現可通過 NGC(NVIDIA 的深度學習框架容器目錄)獲取。
為幫助客戶將自身專業知識應用於 AI 領域,同時保護資料隱私,英偉達發佈了 NVIDIA TAO,其可以運用客戶和合作夥伴的資料,對 NVIDIA 預訓練模型進行微調和適配。
推理伺服器 NVIDIA Triton,它可以從進入客戶 EGX 伺服器或雲實例的連續資料流中獲取洞察。黃仁勳說:「這包括任何在 cuDNN 上運行的 AI 模型,也就是幾乎所有的 AI ,包括來自 TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT 或自定義 C++/python 後臺等的任何框架。」
黃仁勳發佈了 BlueField-3 DPU,其將為構建超大規模資料中心、工作站和超級計算機所需的基礎設施提供進一步的加速。這款新一代資料處理器將提供最強大的軟體定義網路、儲存和網路安全加速功能。據介紹,一個 BlueField-2 能夠實現相當於 30 塊 CPU 核的工作負載,而 BlueField-3 在此基礎上又實現了 10 倍的性能飛躍,能夠替代 300 個 CPU 核,以 400Gbps 的速率,對網路流量進行保護、卸載和加速。
黃仁勳表示,英偉達全新的資料中心路線圖已包括 CPU、GPU 和 DPU 三類晶片,而 Grace 和 BlueField 是其中必不可少的關鍵組成部分。投身 Arm 架構的 CPU,並不意味著英偉達會放棄原有的 x86、Power 等架構,黃仁勳將英偉達重新定義為「三晶片」公司,覆蓋 CPU、GPU 和 DPU。
對於未來的發展節奏,黃仁勳表示:「我們的發展將覆蓋三個產品線——CPU、GPU 和 DPU,以每兩年一次更新的節奏進行,第一年更新 x86,第二年就更新 Arm。」

最後是自動駕駛。「對於汽車而言,更高的算力意味著更加智慧化,開發者們也能讓產品更快迭代。TOPS 就是新的馬力,」黃仁勳說道。
英偉達將於 2022 年投產的 NVIDIA 自動駕駛汽車計算系統級晶片——NVIDIA DRIVE Orin,旨在成為覆蓋自動駕駛和智慧車機的汽車中央電腦。搭載 Orin 的量產車現在還沒法買到,但英偉達已經在為下一代,超過 L5 駕駛能力的計算系統作出計劃了。
Atlan 是這家公司為汽車行業設計的下一代 SoC,其將採用 Grace 下一代 CPU 和下一代安培架構 GPU,同時也集成資料處理單元 (DPU)。如此一來,Atlan 可以達到每秒超過 1000 萬億次(TOPS)運算次數。如果一切順利的話,2025 年新生產的車型將會搭載 Atlan 晶片。
與此同時,英偉達還展示了 Hyperion 8 自動駕駛汽車平臺,業內算力最強的自動駕駛汽車模板——搭載了 3 套 Orin 中心計算機。
不知這些更強的晶片和系統,能否應付未來幾年里人們對於算力無窮無盡的需求。在 GTC 2021 上,英偉達對於深度學習模型的指數增長圖又更新了。「三年間,大規模預訓練模型的參數量增加了 3000 倍。我們估計在 2023 年會出現 100 萬億參數的模型。」黃仁勳說道。

英偉達今天發佈的一系列產品,讓這家公司在幾乎所有行業和領域都能為你提供最強大的機器學習算力。在黃仁勳的 Keynote 發表時,這家公司的股票一度突破了 600 美元大關。

「20 年前,這一切都只是科幻小說的情節;10 年前,它們只是夢想;今天,我們正在實現這些願景。
英偉達每年在 GTC 大會上發佈的新產品,已經成為了行業發展的風向。不知在 Grace 推出之後,未來我們的伺服器和電腦是否會快速進入 Arm 時代。