NVIDIA 如何靠晶片掌握了全球AI的命脈

英偉達(NVIDIA)的圖形處理器 GPU 是人工智慧晶片領域的「王者」。但許多初創公司表示,這種局面應該變一變了。

圖片來源:Pixabay

原作 Nicole Kobie

翻譯 周舒義

編輯 魏瀟

1993 年,30 歲的黃仁勳(Jensen Huang)和合作者共同創立了圖形和遊戲硬體公司英偉達(NVIDIA)。直到今天,圖形和遊戲顯示卡依然是這家公司的主要收入來源。但早在 2019 年,四大雲服務提供商 AWS、谷歌、阿里巴巴和 Azure 已有 97.4% 的人工智慧(AI)加速器(用於提高處理速度的硬體)部署了英偉達的圖形處理器(GPU)。Cambrian AI Research 的分析師 Karl Freund 表示,英偉達佔據了 AI 演算法訓練市場「近乎 100%」的份額。超算 500 強中有近七成使用其 GPU。上個財年,英偉達在資料中心市場的 GPU 銷售額攀升至了 67 億美元。英偉達見證了人工智慧領域幾乎所有的里程碑:吳恩達領銜研發的 YouTube 尋貓程序、DeepMind 的圍棋冠軍 AlphaGo、OpenAI 的自迴歸語言模型 GPT-3 都在其硬體上運行。英偉達的硬體已經成為了人工智慧領域的地基。

儘管取得了這樣的成功,質疑英偉達從遊戲轉向 AI 是瞎貓碰見死耗子的聲音仍然不絕於耳,在英偉達領導深度學習(deep learning)研究的 Bryan Catanzaro 對此相當惱火:「十年來,英偉達在進軍 AI 市場的路上始終步步為營。」

關於英偉達如何從遊戲和圖形硬體公司轉型為 AI 晶片「霸主」的故事,業內有這樣一則八卦——它和「貓」有關。2010 年,現任英偉達首席科學家 Bill Dally 與他在美國史丹佛大學的前同事、電腦科學家吳恩達(Andrew Ng)共進早餐,彼時後者正在與谷歌合作開展一個項目,想要教會演算法在網際網路上「找貓」。

吳恩達當時構建的神經網路已經「觀看」了 1000 萬段 YouTube 視訊,學會了認出人臉、身體和貓——但要準確做到這一點,整個系統需要數以千計的中央處理器(CPU)提供算力。Dally 和他打賭說,同樣的事只要幾塊 GPU 就能做到。GPU 被專門用來處理像 3D 渲染這樣的密集負載——這令它在驅動 AI 時的表現比 CPU 更出色

為了實現這一目標,Dally 找到了 Catanzaro。他做到了—— 12 塊 GPU,就在訓練 吳恩達的識貓模型時展現出了比 CPU 更快、更有效率的並行處理能力。

但 Catanzaro 希望人們知道,英偉達在 AI 領域的發力並不是因為那次偶然的早餐。事實上,在 2008 年加入英偉達之前,他還在加州大學柏克萊分校讀研究生的時候就已經在為 AI 開發 GPU 了。「英偉達在這個市場上獲得的地位並非偶然。」他說。

十年後,人工智慧和晶片產業越來越成熟,變革將至。越來越多的企業開始利用 AI 來理解收集到的海量資料,而各國政府則向深度學習領域注入資金,以保持領先地位,中美之間的競爭尤為激烈。Deloitte 分析師 Costi Perricos 表示,人工智慧將成為各國競爭「下一個超級大國」的焦點領域。與此同時,深度學習模型的規模和複雜度也在不斷增加,需要更多的算力。

OpenAI 的 GPT-3 就是一個極端的例子。它是一個可以寫出通順文字段落的深度學習系統,包含 1,750 億個參數。GPT-3 的計算成本約為 460 萬美元,此後被包含 1.6 萬億個參數的谷歌語言模型超越。高效能的硬體至關重要——為了處理更多的參數和資料進而提高模型準確率,也為了降低 AI 造成的環境影響。據丹麥研究人員計算,訓練 GPT-3 所耗能量形成的碳足跡相當於駕車行駛 70 萬公里。

我們需要更多的 AI 晶片,我們也需要更好的 AI 晶片。雖然英偉達是早起的鳥兒有蟲吃,但後來的挑戰者們正競相追趕。谷歌 2015 年開始製造自己的晶片;亞馬遜 2016 年收購了 Annapurna Labs,去年開始把 Alexa 智慧大腦遷移到自己的 Inferentia 晶片上;百度旗下的崑崙晶片公司最近獲得了 20 億美元(130 億人民幣)的估值;高通推出了 Cloud AI 100 晶片;IBM 正致力於高能效設計。AMD 收購 Xilinx,發展 AI 資料中心業務;英特爾 2019 年在其 Xeon 資料中心的 CPU 中集成了 AI 加速,還在2016 年以 4.08 億美元收購了 Nervana,2019 年以 20 億美元收購了 Habana Labs。那些仍在待價而沽的初創公司也已推出了自己的硬體,在過去的幾年裡,Graphcore、SambaNova、Cerebras、Mythic AI 等公司陸續測試或者發佈了 AI 晶片。

人工智慧方興未艾。識貓演算法距今只有十年,這些初創公司也大多不過數年曆史。智慧物聯網設備掀起了一場機器互聯革命,更多的資料將會隨之湧現,所有人的目光投向了同一件事:掌握 AI 晶片的未來

圖片來源:Pixabay

GPU 和它的競爭者們

機器學習是一種與眾不同的計算負載,需要在數字精度較低的條件下開展大量數學運算。傳統的高效能運算 (high-performance computing, HPC) 靠多個系統互聯構建超級計算機,以處理像科學仿真和金融建模這樣的複雜工作負載,這需要使用至少 64 位的數字進行高精度運算。AI 計算也需要大規模的計算基礎設施,但不需要那麼精確的數學。它使用的數字是 16 位,甚至可以是 8 位——和 HPC 相比這有點像 80 年代的像素遊戲碰上了次世代圖形。AI 晶片初創公司 Cerebras 的執行長 Andrew Feldman 說:「大部分數學運算很簡單,但計算量非常大。」

AI 晶片是經過程式設計框架(例如Google 的 TensorFlow 和 Facebook 的 PyTorch)最佳化,用以運行機器學習工作負載的處理器。在訓練或者運行深度學習模型時,AI 晶片無需「事必躬親」,而是作為加速器快速處理最密集的工作負載。例如,英偉達的盒裝 AI 系統 DGX A100 使用 8 塊自研的 A100 「Ampere」 GPU 作為加速器,但也配備了 128 核的 AMD CPU。

AI 不是個新事物了,但我們以前的算力不足以支撐深度學習模型,研究人員只能等待硬體趕上他們的想法。「GPU 的出現打開了大門。」另一家制造 AI 晶片的初創公司 SambaNova 的聯合創始人兼執行長 Rodrigo Liang 說。

2012 年,加拿大多倫多大學(University of Toronto)的研究人員 Alex Krizhevsky 在一年一度的 ImageNet 計算機視覺挑戰賽中擊敗了其他競爭對手。這一比賽讓研究人員相互競爭,開發可以識別圖像或者物體的演算法。Krizhevsky 首次使用由 GPU 驅動的深度學習演算法擊敗了人類的手動編碼。到了 2015 年,所有在 ImageNet 競賽中名列前茅的成績都用的是 GPU。

深度學習研究就此爆發了。英國初創晶片公司 Graphcore 聯合創始人兼技術長 Simon Knowles 回憶起 2015 年前往加州尋求融資的經歷時,表示一些投資人甚至不懂什麼是 AI。但幾個月後,也就是 2016 年初,局勢徹底變了。「那時,人人都開始熱衷人工智慧,」Knowles 說,「然而,他們對晶片並不感冒。」英偉達的技術可以提供超過 20 倍的性能提升,它的表現是如此良好,以至於同行們根本拉不到投資。新的晶片架構被認為沒有必要,英偉達已經覆蓋了整個行業需求。

但是,在 2016 年 5 月,谷歌改變了這一切,他們宣佈為人工智慧應用開發了自己的晶片,Cerebras 的 Feldman 稱之為「大膽的戰略決定」。這些晶片被稱為張量處理器(tensor processing unit, TPU),專門為谷歌自己的機器學習程式設計框架 TensorFlow 而設計。Knowles 表示,此舉向投資者們傳遞了一個信號:設計新型處理器或許會有市場。「一夜之間,所有風投都在想:那些瘋狂的英國人在哪兒?」他說。那之後,Graphcore 已經籌集到了 7.1 億美元。

英偉達的競爭對手稱,儘管 GPU 強大的處理能力令其在 AI 任務上的表現比 CPU 更勝一籌,但 GPU 的設計用途是圖形處理而非機器學習。依靠著精心最佳化和複雜的軟體層,GPU 的 AI 市場主導地位才能維持這麼久。「英偉達把 GPU 的複雜性隱藏得非常好。」Graphcore 聯合創始人兼執行長 Nigel Toon 說。「他們創建的軟體庫、各種框架和最佳化使複雜性得以隱藏。英偉達在這裡下了很大功夫。」

不過即使拋開 GPU 不談,關於晶片的爭鳴還會繼續。你可以從頭設計一款全新架構的 AI 晶片,有很多技術路徑可供選擇:谷歌的 TPU 屬於專用積體電路 (ASIC),專為特定工作負載設計;Cerebras 製造了 「晶圓規模引擎」,這是一款比普通晶片大 56 倍的巨型晶片;IBM 和 BrainChip 模仿人腦來製造神經仿生晶片;Mythic 和 Graphcore 以不同的設計方式造出了智慧處理單元 (IPU)……如此等等,不一而足。

TPU 3.0 圖片來源:Zinskauf,CC BY-SA 4.0,https://commons.wikimedia.org/w/index.php?curid=77299254

但英偉達的 Catanzaro 認為,這些形形色色的晶片不過是 AI 加速器的變體——任何能加速 AI 計算的硬體,都叫 AI 加速器。「我們談論的可以是 GPU、TPU、IPU 或者其他任何東西,但人們對這些字母過於執著。」他說,「我們把產品稱作 GPU 是出於歷史原因……但 GPU 一直用於加速計算,只是人們關心的工作負載性質在不斷變化。」

跑分競爭

誰能與英偉達爭鋒?核心基準測試 MLPerf 是衡量深度學習晶片的黃金標準,儘管這類基準測試是塊「難啃的硬骨頭」,但英偉達仍能在 MLPerf 中獨領風騷。Cambrian AI Research 的分析師 Karl Freund 指出,學術機構和包括谷歌在內的業界玩家創建了基準測試工具 MLPerf,谷歌和英偉達在榜上一騎絕塵,但對初創公司來說,與其花費大量精力逐個通關,不如把資源集中到別處更划算。

但是英偉達不這麼想,他們每年都要超越谷歌的 TPU。「谷歌創建了 MLPerf 來展示他們的 TPU 有多厲害。」英偉達解決方案架構和工程負責人 Marc Hamilton 表示,「黃仁勳說,要是我們的 GPU 總能在谷歌跑 MLPerf 基準測試的時候比他們的 TPU 快一點點,那就太好了。」

為了確保能在基準測試的某個版本中名列前茅,英偉達將一臺公司內部的超級計算機從 36 個 DGX 模組升級到了驚人的 96 個。這需要將整個系統重新佈線。為了儘快完工,他們乾脆切斷了這套價值約 100 萬美元的設備的電纜,直接把新設備加了上去。這或許能凸顯跑分驅動的行為有多麼瘋狂,但它也啟發了英偉達對 DGX 的重新設計:當前款式的模組可以 20 個一組互聯,無需重新佈線。

更低的功耗

在基準測試和超級計算機上,你可以隨時添加更多晶片。但在 AI 計算的另一方面——邊緣推理(inference at the edge),就不是這麼一回事了。

英偉達在 2020 年出價 400 億美元收購了英國晶片設計公司 ARM。這家公司的晶片架構為全球 95% 的智慧手機提供支持,讓這次收購引起了全世界的關注。但反響並不都是積極的。卸任後保留股份的 ARM 聯合創始人 Hermann Hauser 稱這是一場「災難」,可能會破壞 ARM 在市場上的中立性。歐盟、英國、中國和美國——世界各地的監管機構正在嚴密地關注著這筆交易。

ARM 設計晶片,將智慧財產權授權給其他公司供其使用。如果 AI 晶片製造商需要 CPU 來搭建系統,他們就可以從 ARM 那裡獲取晶片設計方案,然後自定規格來製造晶片。儘管黃仁勳「明確」表示英偉達會尊重 ARM 的開放模式,但競爭對手擔心,英偉達對 ARM 的控制可能會限制這類合作關係。據報道,英國政府正在研判這樁收購案對國家安全可能產生的影響(ARM 被英偉達收購前歸日本軟銀所有);而中國則擔心在現有的貿易形勢下,如果 ARM 落入美國公司手中,可能會導致一些中國公司因為限制而無法購買其設計方案。

搭載在松下多媒體設備上的 ARM 晶片。圖片來源:Yaca2671,CC BY-SA 3.0,https://commons.wikimedia.org/w/index.php?curid=1661557

ARM 是邊緣推理晶片的主要設計廠家,這類晶片可以把深度學習應用於現實世界。這意味著,這次收購可能會對市場產生巨大影響;在 ARM 加持下,英偉達可以憑藉 GPU 和 ARM 在資料中心和邊緣運算領域都佔據主導地位。

何為邊緣推理?英偉達強大的高性能系統通過處理資料來訓練和應用模型,但還有另一種 AI 負載叫做推理,這種任務更輕量,使用經過訓練的模型來詮釋一些東西——例如無人駕駛汽車解讀攝像頭拍到的畫面;智慧手機應用可以識別面部輪廓,在自拍照中為你加上貓耳;或者是醫學成像模型在掃描中發現癌症的跡象。訓練過程需要大量的算力,要在資料中心完成,但推理可以在兩處進行。

一處也是在資料中心:當你向 Alexa 或者 Siri 提問時,語音會被上傳到亞馬遜和蘋果的伺服器進行轉錄和回覆。另一處則在終端使用者設備,例如相機、汽車和智慧手機——這被稱為邊緣運算(edge computing)。邊緣運算對處理能力要求不高,但需要快速反應(沒人希望無人駕駛汽車會在剎車前陷入沉思)。

英偉達目前在資料中心端執天下牛耳。它的 A100 晶片可以處理資料、訓練模型,而推理任務則被虛擬化到更小的微型伺服器上,同一硬體可以同時運行超過 50 個推理負載。這對像 AWS 這樣提供 AI 服務的科技巨頭很有幫助,因為多個客戶可以使用同一硬體而沒有資料洩露的風險。在邊緣運算領域,英偉達有用於無人駕駛汽車的 DRIVE 和用於現場推理的 EGX,但低功耗晶片並非其傳統強項——如果你用過遊戲膝上型電腦,你會注意到它需要比谷歌的膝上型電腦 Chromebook 更頻繁地充電。低功耗晶片研發是 ARM 的優勢領域,這也是英偉達斥資 400 億美元收購該公司的原因

有了邊緣 AI,語音助手不必將語音上傳到 AWS 或者 Apple 伺服器上處理,而是可以基於本地智慧做出響應。ARM 的 IP 產品部總裁 Rene Haas 說:「這讓資訊可以在源頭處就地處理,在很多層面都有助於提高效率。」他指出,本地向雲端來回收發資料會加快電池電量的消耗。這一轉變,正是英偉達收購 ARM 計劃的核心。

超算佈局

過去一年裡,當其他人被困在家裡,就著香蕉麵包狂刷 Netflix 的時候,英偉達解決方案架構與工程部門主管 Marc Hamilton 大部分時間都在忙著在英國搭建一臺價值 4000 萬英鎊的超級計算機 Cambridge-1,他克服了疫情帶來的物資短缺,大體按時完成了組裝工作。英偉達模組化的系統降低了搭建難度。八塊 A100 晶片組成了被稱為 DGX 的計算系統核心——它和你膝上型電腦裡面跑的那塊 Intel 或者 AMD 晶片在角色上是類似的。DGX 成本高達 19.9 萬美元,採用即插即用式設計,包含記憶體、網路以及其他所有功能。80 臺 DGX 以每 20 臺為一組的模組化形式,撐起了 Cambridge-1 的 「SuperPod」系統。

英偉達官網的 Cambridge-1 頁面。https://www.nvidia.com/en-us/industries/healthcare-life-sciences/cambridge-1/

Hamilton 表示,Cambridge-1 將成為英國規模最大、算力最強的 AI 超級計算機,可以進入世界前 40(排名可能會發生變化)——但在英偉達自己的超算序列中它的規模將只能屈居第五。Cambridge-1 使用 80 個 DGX A100 盒子搭建,而英偉達的最強超算 Selene 使用了 560 個盒子。

英偉達把 Cambridge-1 建在英國,部分原因是他們收購了 ARM,這意味著 ARM 在英國的員工會加入英偉達。雖然整體來看,Cambridge-1 既不是最快的,也不是最大的,但它宣稱創下了兩個第一。Hamilton 稱其為世界上第一臺雲原生(cloud-native)超級計算機,因為它具有類似於 AWS 的分區功能,可以讓不同公司使用同一硬體而沒有安全漏洞或者資料洩露的風險。這也讓 Cambridge-1 創造了第二項第一:這將是英偉達唯一向外界合作伙伴開放的超級計算機,可以讓大學和醫療保健巨頭阿斯利康(AstraZeneca)、牛津奈米孔公司(Oxford Nanopore)和葛蘭素史克(GSK)運行他們自己的深度學習模型。

為什麼英偉達要建造自己的超級計算機?一個原因是,他們需要「玩具」來吸引最優秀的人才。2016 年的時候,英偉達還沒有超算,Facebook 和谷歌將市面上最優秀的 AI 研究人員一掃而空。「這不是因為他們給的錢更多,」 Hamilton 說,「而是因為谷歌和 Facebook 擁有數以千計的 GPU 來跑業務,並且他們的 AI 研究人員可以使用這些 GPU。」

現在,英偉達的 Selene 是世界第五大超級計算機,僅次於日本的「富嶽」、中國的「神威·太湖之光」和美國的兩臺超算(編者注:在2021 年 6 月底發佈的第 57 次世界超算 500 強排名中,Selene 被惠普公司製造的 Perlmutter 超過,排名世界第六)。Hamilton 說,這意味著如果你是一名想要使用速度最快的 AI 硬體的研究人員,你就要在中國、美國或者英偉達中選一個。中國的目標是在 2030 年成為 AI 領域的全球領導者,而美國則希望保持其在技術上的領先地位。AI 競爭前沿已經出現了緊張局勢,作為一家美國公司,英偉達無法置身事外。

Catanzaro 領導的 40 人實驗室開發用於英偉達自己計算系統的 AI,但該實驗室還是系統架構師的「試驗田」,可以一窺深度學習模型在未來的工作方式。「如果你想打造未來晶片,希望它將來還能一展拳腳,你就必須有能力預測未來最重要的工作負載是什麼——它們在計算層面是什麼樣子。」Catanzaro 說,「如果預測錯誤,晶片開發就會步入歧途。」 晶片的設計製造需要數年時間,因此這種遠見是必要的。

如果有朝一日開發出來的模型棄 GPU 而去,或者在 GPU 上跑得不那麼好,會發生什麼?英偉達的 Dally 承認存在這種可能性,但由於大多數研究人員都在研究 GPU,他認為可能性不大。「在新模型上線之前,我們通常就已聽說過它,並有機會對其進行測試,確保它在我們的 GPU 上運行良好,」他說。

其他人表示反對——他們認為, GPU 可能會限制深度學習模型充分發揮潛力。「每個人在開發模型時都在為當前的硬體技術削足適履。」Cerebras 的 Feldman 說,「我們最高興、也最興奮的事情之一,就是一群客戶正在編寫全新的模型。」 他表示,今年 Cerebras 將展示所謂「GPU 不好使」的實例——這些工作壓根無法用 GPU 完成。

AI 晶片的未來

Graphcore 的 Toon 表示,研究人員早就向他表達過為當前硬體所困的局面;他的搭檔 Knowles 將其比作奧威爾的「新語」——簡單的語言會阻止人們思考更復雜的問題。「有一些點子,例如概率機器學習,仍然窒礙難行,因為這些想法在像 GPU 這樣的硬體上難以向前發展。」Toon 說,「競爭的焦點在於,英偉達能以多快的速度改良 GPU,還是會有新事物來實現這些想法?

麻省理工學院電腦科學和人工智慧實驗室的研究員 Neil Thompson 則在 AI 會議上注意到這樣一種趨勢:研究人員暗示,計算方面的限制阻礙了他們的模型,限制了他們的選擇和資料集,並讓一些人不得不在工作中留下錯誤,因為他們無法負擔重跑一遍模型的高昂成本,難以修復問題。「這真的很普遍,如果我們安常守故,對於深度學習的未來而言將會是一個非常大的問題。」他說。

Thompson 和同事一起分析了 1058 篇 AI 論文,發現機器學習算力需求的增長遠遠快於硬體改良或者訓練效率提升。這樣下去,我們遲早需要花費數億甚至數十億美元來訓練模型——而且還有其他成本。「使用越來越多的 GPU 訓練模型的問題在於,GPU 數量每增加一倍,成本就會翻番,環境足跡、碳排放和汙染也會翻番。」 Thompson 說。

他認為,無論是英偉達還是後起之秀,僅僅依靠硬體解決方案,都不足以幫助 AI 創新走出困境。相反,我們需要構建更高效的模型,同時更好地利用已有的模型。諸如稀疏化之類的想法(忽略資料集中的 0 以節約計算資源)可以精簡資料,只保留關鍵參數,從而提供幫助。另一個想法是將模型提煉成更輕量的方程,拋開臃腫的通用模型,只運行需要的部分。

如果沒有這些努力,我們將需要更大規模的資料中心。但人工智慧不應該僅僅侷限於那些用得起超算的人群。在那些從事最高級深度學習研究的大學裡,「擁有較少算力的大學已然成為少數派。」 Thompson 說,「深度學習俱樂部的玩家仍然為數不少,但是隨著計算負擔上升,參與者的數量會越來越少。一些人已經在出局的路上了。」

成本是可以削減的,這可能是初創公司贏得客戶、對抗現有企業的一種方式。AWS 去年將 Habana Labs 的晶片添加到自己的雲端,並稱這家英特爾旗下的以色列設計公司將雲端運營成本降低了 40%。Habana Labs 首席商務官 Eitan Medina 表示:「為了讓 AI 惠及所有人,而不僅僅是富人,你確實需要提高價效比。」

AI 本就存在著不平衡的問題,而硬體的不平等使用加劇了這一點。「這意味著我們只會看到硬幣的一面。」英偉達新興領域負責人 Kate Kallot 說,「如果你不考慮世界上的大部分人口……我們將如何解決世界各地的挑戰?」 她提到了聯合國的可持續發展目標:許多 AI 研究人員正在將他們的工作轉向應對貧困和氣候危機等挑戰,而這些議題將在很大程度上影響新興市場。

還有許多其他挑戰需要面對。疫情期間處理器的製造受到限制,而去年中美之間的貿易摩擦引發了人們對全球晶片工廠主要集中在亞洲的擔憂。歐盟最近承諾,到 2030 年將會生產全球五分之一的高端晶片。雖然英特爾有自己的工廠,但晶片設計公司大都將製造外包——英偉達的晶片是由台灣的台積電公司製造的。2021 年 3 月,英特爾宣佈計劃在美國開設兩家新工廠,首次為外部設計公司代工晶片,這或許將為美國的晶片製造帶來更多控制權。

當這些障礙被克服,晶片不斷發展,人工智慧會將觸角延伸到每一處角落,就像萬物互聯的浪潮,從麵包機到冰箱的各種設備都加入了應用程序與 Wi-Fi 支持。但在未來,智慧不僅意味著連入網際網路,還意味著人工智慧的嵌入。AI 將無處不在

*本文經過部分編輯和刪減。英文原文可點選連結查看:

https://www.wired.co.uk/article/nvidia-ai-chips

相關文章

ChatGPT 背後的經濟賬

ChatGPT 背後的經濟賬

拿投資和賺錢之前,要先去了解下成本。 ChatGPT 能否取代 Google、百度這樣的傳統搜尋引擎?為什麼中國不能很快做出 ChatGPT...

不喜歡iPhone的人,救星來了

不喜歡iPhone的人,救星來了

全新Pixel的AI融合技術,再次推進計算攝影的能力邊界。 —— 文|杜晨 編輯|VickyXiao 圖片來源 | Google 美國時間今...