
具體地點在哪沒有透露,不過我們已經猜出來了。
文|杜晨 編輯|Vicky Xiao
Meta 不僅是全球最大的社交網路公司,和當下最熱門技術概念「元宇宙」的推行者,它同時也是人工智慧(AI)研究的全球頂級公司之一。
該公司在 AI 方面卓越研究成果的背後,必然有強大的算力支持。不過一直以來,Facebook 從未對外界公開展示過其算力究竟有多厲害。
而在今天,Meta 公司突然對外宣佈了其在打造 AI 超級計算機方面的最新進展。
根據 Meta 此次公開透露的結果,其打造的超級計算機 AI RSC,目前算力在全球應該已經排到了前四的水平。
這個情況已經足以令人非常震驚。畢竟,在算力方面能夠和 RSC 相提並論的其它超級計算機,均由美國、日本的國有研究機構運作——而 RSC 是前五里唯一來自於私營機構的超算系統。
這還沒完:這臺超級計算機,還在以驚人的速度,變得更快、更強。
Meta 預測,到今年7月,也即半年之內,RSC 的算力將實現2.5倍的增長。另據專業機構 HPCwire 估計,Meta 的 RSC 超級計算機,其運行 Linpack benchmark 的算力將有望達到220 PFlops。如無意外,RSC 將成為名副其實的「全球最快 AI 超級計算機」。

AI RSC 內部,圖片來源:Meta
|AI 研發進入「超算」時代
首先需要回答一個問題:
什麼樣的 AI 研究,需要如此強大的超級計算機?
一般的模型,或許可以在一般的電腦或普通的資料中心裡,用一塊或是幾塊顯示卡就可以完成訓練。而 Meta 正在研究的,是比目前的模型參數量要大得多,性能要求更高、更嚴格,訓練花費時間更久的——超大模型。
以識別有害內容為例:CV 演算法需要能夠以更高的取樣率,處理更大、更長的視訊;語音識別演算法需要在極大噪音的複雜背景下達到更高的識別準確度;NLP 模型要能夠同時理解多種語言、方言和口音,等等……
在過去,許多演算法在跑分資料集上都得到了不錯的成績。然而,Meta 是一家幾大洲十億級別使用者量的公司,它必須確保同一個模型投放到生產環境中能夠最大限度保證普適性。所以,一般模型不夠用了,現在要訓練大模型。
訓練大模型,需要大算力——問任何一個從事大模型研究的人,你都會得到這樣的答案。畢竟過去的訓練任務用幾周能夠完成,可在今後,面對新的大模型,我們可等不起幾年……
「在今天,包括識別有害內容等在內的許多重要的工作,都對於超大模型產生了極大的需要,」Meta 在其新聞稿中寫道,「而高效能運算系統是訓練這些超大模型的重要元件。」
Meta 此次發佈的超級計算機 AI RSC,全稱為 AI Research SuperCluster(人工智慧研究超級計算集群)。雖然 Meta 在今天首次公開宣佈推出這一系統,實際上 RSC 的前身版本最早在2017年就已經在 Facebook 公司內部投入生產使用了。當時,Facebook 團隊採用了2.2萬張英偉達 V100 Tensor GPU 組成了首個單一集群。該系統每天可以運行大約3.5萬個訓練任務。
據 HPCwire 預計,這個基於 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點計算性能應該已經達到了135 PFlops。這個水平在全球超算排行榜 Top500 的2021年11月排名中,已經足以排到第三名了,也即其算力可能已經超越了美國能源部在加州 Livermore 運作的「山脊」(Sierra) 超級計算機。
不過,對於 Meta 來說,這還遠遠不夠。他們想要的,是世界上最大、最快、最強的 AI 超級計算機。
這臺超算還必須要達到生產環境的資料安全級別,畢竟在未來,Meta 的生產系統所用的模型可能直接在它上面訓練甚至運行。
並且,這臺超算還需要為使用者——Meta 公司的 AI 研究員——提供不亞於一般訓練機/顯示卡的使用便利性,和流暢的開發者體驗。

Meta AI RSC 技術項目經理 Kevin Lee 圖片來源:Meta
2020年初,Facebook 團隊認為當時公司的超算集群難以跟上未來大模型訓練的需要,決定「重新出發」,採用最頂尖的 GPU 和資料傳輸網路技術,打造一個全新的集群。
這臺新的超算,必須能夠在大小以 EB(超過10億GB)為單位的資料集上,訓練具有超過萬億參數量的超大神經網路模型。
(例如,Google 去年用 Switch Transformer 技術訓練的混合專家系統模型,都是參數量達到萬億級別的大模型;相比來看,此前在業界非常著名的 OpenAI GPT-3 語言模型,性能和泛用性已經非常令人驚訝,參數量為1750億左右。)
Meta 團隊選擇了三家在 AI 計算和資料中心元件方面最知名的公司:英偉達、Penguin Computing,和 Pure Storage。
具體來說,Meta 直接從英偉達採購了760臺 DGX 通用訓練系統。這些系統包含共計6080塊 Ampere 架構 Tesla A100 Tensor 核心 GPU,在當時,乃至今天,都是最頂級的 AI 訓練、推理、分析三合一系統。中間的網路通訊則採用了英偉達 InfiniBand,資料傳輸速度高達200GB每秒。
儲存方面,Meta 從 Pure Storage 採購了共計 231PB 的快閃記憶體陣列、模組和快取容量;而所有的機架搭建、設備安裝和資料中心的後續管理工作,則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。
這樣組建出來的新超算集群,Meta 將其正式命名為 AI RSC:

圖中顯示的是 RSC 第一階段(P1)的參數細節。圖片來源:Meta
相較於之前 FAIR 採用 V100 顯示卡搭建的計算集群,初代 RSC 對於生產級別的計算機視覺類演算法帶來了20倍的性能提升,運行英偉達多卡通訊框架的速度提升了超過9倍,對於大規模自然語言處理類 workflow 的訓練速度也提升了3倍——節約的訓練時間以周為單位。
值得一提的是,在 Meta 剛剛做好 RSC 升級計劃的時候,新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不確定性,RSC 能否成功升級換代,打上了一個巨大的問號。
然而,公司業務發展和 AI 科研的需要,無法等待新冠疫情。負責 RSC 升級和建造的團隊,以及包括英偉達、Penguin Computing、Pure Storage 等三家矽谷公司在內的技術合作方,不得不在極大的工期壓力下,完成資料中心的裝修建設、設備的生產和運輸、現場裝機、佈線、調試等一系列非常繁瑣和技術要求極高的工作。
更誇張的是由於當時全美各地都有居家隔離令,整個 RSC 項目團隊的多位負責人,都不得不在家中遠端工作……團隊裡的研究員 Shubho Sengupta 表示,「最讓我感到驕傲的是,我們在完全遠端辦公的條件下完成了(RSC 的升級工作)。考慮到項目的複雜性,完全沒有和其它團隊成員見面就能把這些事都辦了,簡直太瘋狂了」

就目前來看,RSC 已經是世界上運行速度最快的 AI 超級計算機之一了。但是 Meta 仍不滿足。
為了滿足 Meta 在生產環境和 AI 研究這兩大方面日益增長的算力需求,RSC 必須持續升級擴容。按照 Meta 的 RSC 第二階段(P2)計劃,到今年7月,也即半年之內,整個計算集群的 A100 GPU 總數提升到驚人的1.6萬塊……
初代 RSC 採用的 DGX A100 單機數量是760臺,摺合6,080張顯示卡——這樣計算的話,也就是說 RSC 將在 P2 再增加9,920張顯示卡,即 Meta 需要再從英偉達採購1,240臺 DGX A100 超級計算機……
就連英偉達也表示,Meta 的計劃,將讓 RSC 成為英偉達 DGX A100 截至目前最大的客戶部署集群,沒有之一。

算力提升了,其它配套設施,包括儲存和網路,也要跟上。
按照 Meta 的預計,RSC 的 P2 完成後,其資料儲存總量將達到1 EB——摺合超過10億 GB。
不僅如此,整個超算集群的單個節點之間的通訊頻寬也獲得了史無前例般的提升,達到驚人的16TB/s,並且實現一比一過載(也即每個 DGX A100 計算節點對應一個網路接口,不出現多節點共享接口爭搶頻寬資源的情況)
(這裡還有個點值得單獨提一下:按照 Meta 團隊的估計,像 RSC 這樣採用 DGX A100 節點組建超算集群的做法,能夠支持的節點上限也就是1.6萬了,再多就會出現過載,意味著追加投資的邊際收益顯著降低。)


在資料安全的角度,Meta 這次也沒有忘了在新聞稿中專門介紹其資料處理方式,以求令公眾安心。
「無論是檢測有害內容,還是創造新的增強現實體驗——為了打造新的 AI 模型,我們都會用到來自公司生產系統,取自真實世界的資料,」Meta 表示,這也是為什麼RSC 從設計之初就加入了資料隱私和資料安全方面的考慮。只有這樣,Meta 的研究院才能夠安全地使用加密、匿名化後的真實世界資料來訓練模型。
1)RSC 被設計為無法和真正的網際網路直接連接,而是和位於 RSC 所在地附近的一座 Meta 資料中心進行連接;
2)當 Meta 的研究人員向 RSC 的伺服器匯入資料的時候,這些資料首先要通過一道隱私審查系統,確認資料已經進行了匿名化;
3)在資料正式投入到 AI 模型演算法的訓練之前,資料也會再次進行加密,並且金鑰是週期生成和拋棄的,這樣即使有舊的訓練資料儲存,也無法被訪問;
4)資料只會在訓練系統的記憶體中解密,這樣即使有不速之客闖入 RSC,對伺服器進行物理訪問,也無法破解資料。可能是出於保密的目的,Meta 甚至連 RSC 的具體所在地都沒有透露……
不過根據已知的情況,RSC 的附近必有一座 Facebook/Meta 資料中心存在。並且,下圖擷取自 RSC 的公告視訊,圖中我們可以看到,AI RSC 位於右上,左下則是 Meta 的一座資料中心。圖中有著大量較高的樹木。

矽星人基本可以確定,上圖中的 Meta 資料中心位於美國弗吉尼亞州 Henrico 縣。該縣是美國東部最大的資料中心集中地,也是連接歐洲、南美、亞洲、非洲的多條海底光纜在美國的末端所在地。至於 RSC 的實際所在地,其前身應該是 QTS Richmond 資料中心。

右邊為 Meta 資料中心,左邊為 QTS Richmond 也即 Meta AI RSC 所在地 截自 Google Maps
最後,讓我們來看看成本……
不考慮同樣極其昂貴的儲存和網路基礎設施,我們就先只看計算的部分:
每臺 DGX A100 的標準售價為19.9萬美元,Meta 大宗採購肯定有折扣,但假設沒有折扣的話:RSC 這次 P2 的擴容成本,僅顯示卡採購的部分,就高達2.5億美元……)
當然,按照今天的 Meta 市值來看,這筆費用簡直是九牛一毛。假若真的打造出全世界最大最強最快的 AI 超算,對於這家公司的業務,無論是其現在的核心業務,還是未來的元宇宙產品,預計都能夠帶來非常大的幫助。
Meta 是這麼說的:「最終,我們在 RSC 上面的努力,將能夠為作為下一個關鍵計算平臺的元宇宙鋪就道路。屆時,AI 驅動的應用和產品將會扮演重要的角色。」