作者/文龍
上週,一年一度的 IEEE Hot Chips 落下了帷幕。在這個為期兩天的半導體技術披露活動中,各大項目背後的工程師們展示了來自「幾乎」整個行業的最新技術。

(來源:Hot Chips 33)
科技行業是否過度關注 AI ?確實如此,但在某種程度上,AI 幾乎無處不在。每個人都知道 AI 在未來幾年對於商業應用來說將是一件大事,因此,各大企業加大在 AI 晶片上的研發也並不奇怪。
本屆 Hot Chips 33 會議上,除了 IBM、三星、高通等晶片製造巨頭向世界展示了他們最新一代的晶片以外,還有台積電分享最先進的 3D 封裝技術、Synopsys CEO 談 AI 設計的晶片、Cerebras 研發出世界上最大的晶片等諸多亮點。
本文將帶你一一回顧這些 AI 晶片的熱點內容,併為你講述在這顆世界上最大的晶片的背後,台積電、Synopsys 和 Cerebras 之間的故事。
對標英偉達,英特爾帶來下一代 CPU 和 GPU
Intel 展示了下一代「Saphire Rapids」至強處理器、用於客戶端平臺的 Alder Lake,以及即將推出的計劃用於超級計算機的 Ponte Vecchio GPU。Ponte Vecchio 具有不錯的 AI 性能,將與英偉達競爭,但鑑於英偉達在人工智慧生態系統中的領先地位,英偉達在 AI 的地位仍然不受威脅;Sapphire Rapids 定位為繼續保持資料中心推理處理器領域的領先地位。

英特爾的現狀以及 Ponte Vecchio 的發展方向。藍線是英特爾,綠線是英偉達。(來源:nextplatform.com)
AMD 推出第三代「霄龍」處理器,技嘉用高通 AI 晶片打造「霄龍」伺服器
正如預期的那樣,AMD 宣佈了該公司的第三代「霄龍」(EPYC)伺服器處理器,聲稱其性能是英特爾具有競爭力的至強晶片的兩倍,並將 AI 推理處理中使用的 8 位整數運算的性能提高了一倍,進一步擴展了 AMD 在伺服器 CPU 方面相對於 Intel 的領先地位。

技嘉新推出的伺服器。(來源:Qualcomm)
與此同時,技嘉和高通宣佈了一款新的 AI 伺服器,其中包含 2 個 EPYC 和 16 個 Cloud AI100,整個伺服器可以超過 100 POPS(每秒一千萬億次操作),比現有的任何伺服器的算力都要高出 10 倍。高通也在大會上分享了更多關於 Cloud AI100 的細節,可以看出其對進軍資料中心的熱情。
IBM 推出晶片內加速型人工智慧處理器 Telum
IBM 在大會上展示了 IBM Telum 的預覽版,IBM Telum 是 IBM z 和 LinuxONE 系統的下一代處理器,計劃於 2022 年上半年推出。公佈的亮點包括預期的性能提升、新的快取設計以及專為實時嵌入式人工智慧(AI)設計的集成加速器。
「Telum」z16 處理器有 225 億個電晶體,其大約三分之一區域的邏輯塊是由 IBM Research 開發的第三代 AI Core 推理加速器,每個加速器都可以從兩個獨立的計算陣列為每個晶片提供 6 TFLOP 的算力,一個面向矩陣運算,另一個面向激活函數。每當核心切換到 AI 模式時,它就會獲得整個加速器的計算能力來執行 AI 任務。

「Telum」z16 晶片的設計更加流線型。(來源:nextplatform.com)
嵌入的 AI 加速器具有智慧預取、回寫控制器、大型暫存器和由微核控制的資料緩衝區,以確保有效利用計算能力。智慧資料移動器控制資料流,以大約 100GB/s 的頻寬傳輸資料;在內部,這些資料可以從暫存器分發到超過 600GB/s 頻寬的計算引擎,從而提供低延遲和高頻寬的 AI 能力。

IBM 模擬了一個信用卡欺詐應用程序的性能。(來源:nextplatform.com)
實際應用方面,IBM 已與多家客戶合作以驗證將實時深度學習引入響應時間敏感的事務性工作這一設計目標。在與一家全球銀行共同開發的用於信用卡欺詐檢測的 RNN 模型中,單個 Telum 晶片上運行該模型每秒可實現超過 10 萬個推理任務,延遲僅為 1.1 毫秒;擴展到 22 個晶片,每秒實現了 350 萬次推理,延遲仍然很低,僅為 1.2 毫秒。
三星下一代 HBM3 和 DDR5 記憶體將內建 AI 處理功能
三星在大會上宣傳其在記憶體處理(PIM)技術方面的最新進展,並稱將 AI 功能注入到下一代 HBM3 和 DRR5 記憶體產品中。PIM 能夠通過將可程式設計計算單元(PCU)的 AI 引擎集成到記憶體核中來處理某些邏輯函數,加速記憶體的 AI 功能。

三星通過在高頻寬記憶體(HBM)配置中集成記憶體處理(PIM),加速了 AI 的功能。(來源:hothardwire.com)
其實早在今年 2 月份,三星就推出了業界首款集成了記憶體處理的高頻寬記憶體(HBM-PIM)產品 Aquabolt-XL,並在 Xilinx Virtex Ultrascale+ (Alveo) AI 加速器中進行了測試。該公司聲稱系統性能提升了近 2 倍,同時能耗降低了 70%。
Synopsys CEO:AI 設計的晶片將在 10 年內性能提升 1000 倍
如今很多人都聽說過摩爾定律,即每兩年晶片性能翻一番。今年大會上,Synopsys CEO Aart de Geus 就 AI 改進晶片設計進行了主題演講。他認為,AI 設計的晶片正在產生巨大的成果,可能會在未來十年內使晶片的性能提高 1000 倍,幫助晶片行業突破摩爾定律。

Synopsys 看到了在十年內將性能提高 1,000 倍的途徑。(來源:Synopsys)
De Geus 於 1986 年創立了電子設計自動化(EDA)軟體公司 Synopsys,並在去年首次推出了設計空間最佳化軟體 DSO.ai。該軟體最初能夠最佳化晶片平面圖中的佈局佈線,但該公司正對其進行擴展,用綜合方法進行自主晶片設計,利用強化學習同時最佳化功率、性能和麵積,而不僅僅是簡單的物理佈局最佳化。
「DSO 的不同之處在於,它不適用於單個設計步驟,而是適用於整個設計流程。」它將解決針對特定應用程序或系統的所有維度的快速晶片定製,包括硬體(物理)、軟體(功能)、可製造性和架構(形式)。

EDA 在晶片設計的新時代中有所不同。(來源:Synopsys)
在實際應用方面,包括三星在內的晶片製造企業對外宣佈使用 DSO.ai 已經為他們帶來了一定的效益。儘管谷歌團隊在過去的兩年中也多次報告將 AI 擴展到晶片設計自動化中的努力,並且這一賽道上還存在 Cadence 等多家公司的競爭,但不可否認的是,DSO.ai 使 Synopsys 已經處於一定的領先地位。
Cerebras 推出世界最大晶片集群 CS-2 可實現大腦級 AI 模型
隨著 GPT-3 等大規模預訓練模型愈演愈烈,Cerebras Systems 也堅定不移地走在研發世界上最大的晶片這條道路上。Cerebras 在會上表示,新推出的 CS-2 AI計算機單個就可以處理 120 萬億個參數的 AI 模型,理論上能夠擊敗擁有 100 萬億個突觸連接的人腦。

Cerebras 發佈的新的交換機產品 SwarmX 和記憶體計算機 MemoryX。(來源:zdnet.com)
Cerebras 還介紹了 CS-2 中用到的一系列行業首創技術,包括世界上最大的晶片 WSE-2、包含 2.4 PB 的 DRAM 快閃記憶體和 NAND 記憶體的片外記憶體盒 MemoryX、可以將多達 192 臺 CS-2 機器連接到 MemoryX 成為一個集群的 SwarmX 技術。

Cerebras WSE-2 晶片和最大的 GPU 對比。(來源:wired.com)
WSE-2 晶片是世界上最大的 AI 晶片,有 2.6 萬億個電晶體、85 萬個處理單元,而一個 GPU 通常只有 540 億個電晶體、幾百個處理單元。該晶片採用 7nm 工藝,卻有平板電腦那麼大,並保持了世界最快單晶片處理器記錄。
在實際應用方面,需要超級計算能力的實驗室已經採用了 Cerebras 的晶片。早期客戶包括阿貢國家實驗室、葛蘭素史克和阿斯利康等製藥公司。ScienceAI 也有過關於生物製藥公司 Peptilogics 使用 Cerebras 晶片的報道。
另外,Cerebras 也透露已經與 OpenAI 的工程師進行了交談,計劃通過瞄準大規模自然語言處理的新興市場進行擴張。

(來源:The New Yorker)
最後,我們來講一下這顆世界上最大晶片的背後,多家公司合作的故事。
在大會技術分享的主題中,台積電研發 VP 餘振華講述了公司在先進封裝方面的路線圖,並在 chiplet 和 3D 封裝上進行了詳細的闡述。而 Cerebras 在其用單晶圓製造的 WSE 上,使用的正是台積電的 InFO_SoW 封裝技術。
體量的增大使 WSE-2 擁有更密集的電路和更復雜的結構,這讓晶片設計面臨前所未有的複雜度。就在這個時候,Synopsys 提供了一些軟體,幫助 Cerebras 克服了一些晶片設計的難題,加速了晶片的研發。
實際上, Cerebras 所面臨並解決的大晶片設計和製造的挑戰還有很多,我們不難看出,這顆 WSE-2 晶片實際上是多家公司長年累月研究出的核心技術的結晶。
參考內容:
https://www.anandtech.com/show/16688/hot-chips-33-2021-schedule-announced-alder-lake-ibm-z-sapphire-rapids-ponte-vecchio
https://www.forbes.com/sites/karlfreund/2021/08/24/and–thats-a-wrap-hot-chips-concludes-an-amazing-lineup-of-ai-chip-announcements
https://www.nextplatform.com/2021/08/23/ibm-bets-big-on-native-inference-with-big-iron/amp/
https://www.forbes.com/sites/patrickmoorhead/2021/08/23/ibm-telum–a-new-chapter-in-vertically-integrated-chip-technology
https://amp.hothardware.com/news/samsung-hbm3-ddr5-modules-in-memory-ai-processing
https://venturebeat.com/2021/08/23/synopsys-ceo-ai-designed-chips-will-generate-1000x-performance-in-10-years/amp/
https://www.wired.com/story/cerebras-chip-cluster-neural-networks-ai/amp
https://www.newyorker.com/tech/annals-of-technology/the-worlds-largest-computer-chip