李根 魚羊 假裝發自 西溪
「生死看淡,不服就幹」,平頭哥造芯模式,正式跑通。
2022雲棲大會現場,新進展再次由阿里雲智慧總裁張建鋒對外宣佈。
倚天710已大規模應用,成為中國首個雲上大規模應用的自研CPU。
在核心應用場景中,算力價效比提升30%以上,單位算力功耗(耗電量)降低60%以上。
張建鋒還宣佈,倚天710的部署規模還會進一步擴大,未來兩年20%的新增算力都將使用自研CPU。
更直白翻譯,就是以後阿里雲的晶片部署中,每10顆CPU晶片裡就有2顆自研CPU。

這個進展和應用,為何重要?
首先,大規模部署代表著晶片產品獲得了市場檢驗,也意味著最難的生態一環達成閉環——雖然不如新硬體來的「刺激」,但意義和價值卻絲毫不遜於新品發佈,甚至長遠來看,量級簡直不能相提並論。
其次,倚天710,作為一款基於Arm架構的雲端CPU,想要在x86占主導地位的全球雲端運算和伺服器晶片生態中立足,更是難上加難,目標十中有二更是Arm架構在雲端里程碑式的新突破。
最後,倚天710的大規模部署,不僅是中國首個自研CPU的應用紀錄,還意味著誕生在造芯浪潮中的平頭哥模式幹出來了!

縱觀半導體半個世紀的發展史,檢驗造芯模式的核心關鍵一以貫之:
造出來(設計和流片)
用得上(需求和性能)
用得好(功耗和成本)
離不開(工具和生態)
而在倚天710的進展中,這四大流程關鍵,平頭哥都(一口氣)完成了實踐證明。
唯一待解之謎,只剩下造芯模式的通關速度——
傳統IT時代的造芯公司和通用晶片,短則5~7年,長則可能10年……
而平頭哥的倚天710,僅僅用了2年。
所以這種模式和速度背後,根本原因是什麼?
是半導體領域也面臨世紀變革?
抑或一個時代果真有一個時代的造芯模式?

中國首個雲端大規模應用的自研CPU
倚天710,2021年雲棲大會發布,是平頭哥造芯以來交出的首款通用型CPU。
單晶片600億電晶體、128核、主頻3.2GHz……首戰跑分就超出業內標杆20%,能效比提升50%以上。
主要用於雲端運算場景,基於Arm v9架構,首發即刷新了Arm伺服器晶片性能紀錄。
作為通用晶片,需要囊括接收、處理、運算伺服器計算機內部所有資訊,是業內公認的設計難度最高的晶片之一。

但晶片之難,最根本還不在於設計和製造,更關鍵的是落地和應用:能夠真正讓更多人用得上、用得好,以強大的生態拱衛壘砌起護城河。
於是一年之後,平頭哥交出重要答卷。
阿里雲方面稱,經過一年業務驗證,倚天710已規模部署並對外提供服務。
具體到應用場景中,在資料庫、大資料、視訊編解碼、AI推理等核心場景中的價效比提升30%以上,單位算力功耗(耗電量)降低60%以上。
這種應用實例,有阿里內部的新業務,也有外部客戶:比如研究機構,智慧手機企業,還有知名網際網路公司。
主打資料智慧SaaS工具生態的匯量科技就表示,在廣告推理中使用倚天710實例後,不僅有效提升了CPU處理能力和網路頻寬,成本對比傳統實例也降低15-20%,綜合價效比提升40%以上。
而阿里集團內部,倚天710則開始支持最核心的電商業務,並且成功在雙11等峰值流量大考中,經受住了實戰檢驗。

這種應用和反饋,意外嗎?不算意外。
畢竟性能和參數,從設計和成功流片之後,就決定了跑分成績。
但一款Arm雲端CPU能夠快速應用於不同場景和服務,適配不同領域的軟體和應用,純靠硬體之力,辦不到。
阿里雲方面解釋,這背後離不開倚天710、飛天作業系統和CIPU融合,首次實現了晶片、計算架構及作業系統的協同最佳化。
而且從造芯啟動開始,演算法、軟體和生態工具的相關工作也早已啟動,作用到倚天710大規模部署中,實現了全應用生態的適配,甚至0程式碼修改即可完成主流業務遷移。

所以對於平頭哥造芯,軟體定義硬體、需求定義供給,都是已經驗證過的定理。但全局思維下的以終為始,把生態和應用納入到造芯流程中,卻是新角度、新方法。
這是對傳統晶片研發模式的根本性變革,也暗含雲原生對映的時代趨勢,更能解釋平頭哥造芯的模式和速度。
倚天710的成功、平頭哥模式的跑通,是雲端運算定義硬體的成功,是雲端運算重塑晶片甚至整個IT硬體體系的證明。
更代表著——IT時代全新的造芯模式開啟。
一個時代有一個時代的造芯模式
阿里入局造芯,平頭哥不服就幹。
氣勢、速度和交貨,三位一體。

2018年9月,整合中天微和達摩院成立旗下晶片公司後,平頭哥半導體正式推出,放話「生死看淡」。
僅僅1年,首款處理器產品玄鐵910對外發布,創造RISC-V開源陣營裡的最快紀錄。
又過1年,還在雲棲大會,首款AI專用晶片含光800,一劍霜寒十四州,首發特定場景性能就40倍於同領域標杆英偉達P4。
到了2021年,依然是雲棲,倚天710以阿里首款為雲而生的通用CPU震動業內,性能跑分領先,能效比更是領跑……
加上今年披露的落地部署和應用進展,用產品回應質疑,用進展證明模式和實力。

整個進程中,平頭哥造芯模式的速度秘訣,也在摸象中逐步清晰。核心歸結起來其實就3點。
第一,造得快,因為需求清晰。
傳統半導體廠商造芯,先調研客戶、再收集需求、接著內部收斂聚焦,然後才能進入定義和晶片設計……過程中免不了技術、產品和工程的拉鋸平衡,於是造芯週期光在前期規劃就會無限拉長。
平頭哥之所以不同,是因為阿里雲在客戶服務、需求和算力產品定義上,積累已非一日,設計規劃週期,可以大大縮短。
第二,造得好,源自任務明確。
一方面,通過需求定義供給。什麼樣的任務,需要晶片提供什麼樣的能力……傳統造芯,先把性能按照天花板設計,再在部署應用中想辦法適配和榨乾,晶片之於應用是參考答案。而需求定義供給,則可以抓住主要任務和矛盾,晶片即解答。
另一方面,軟體定義硬體。晶片作為計算任務的解法集成,以前是先有硬體再配演算法,但從AI為主的專用需求開始,最高效的解法早已變成了軟硬一體化方案,甚至為了演算法和軟體去定製晶片硬體。
這種源頭起點上的變革,晶片的性能、功耗、應用落地,自然不會差。

第三,用得上且用得好,因為落地場景清晰。
平頭哥造芯,從一開始就與阿里雲緊密協同,阿里雲是集團同事、客戶、也是落地場景,在阿里生態內,就能完成晶片的全流程。
晶片的流程,之前最受關注的是設計和流片,但這其實只是開始。
流片之後需要壓測,驗證穩定性,然後小批量交付客戶開發利用反饋,進行功能性測試,如果有問題還得重新設計、改版,再走一遍週期,這也是為什麼一款晶片在流片成功之後,依然需要一年半載才能驗證應用價值的內在原因。
但平頭哥不同,在阿里集團內部,在阿里雲的體系協同下,各種壓測、場景和應用反饋,基本是完整全鏈路的。
比如倚天710,去年8月點亮成功,雲棲大會官宣發佈,緊接著雙11就開啟了峰值極限下的穩定性壓測……以往傳統晶片公司用時一年半載才能完成的流程,阿里幾個月就走完了,一款晶片的成熟週期,被大大縮短。
所以平頭哥造芯,自然是攻堅科技產業中最基礎又最關鍵的一環,但從一開始就並非為造而造,或者因為熱潮而出發。
平頭哥半導體的價值,或許要放在整個阿里的算力攻堅進程中,才能透過局部看整體,透過現象看清本質。

阿里雲的發展史,關於開創者們的往事記述很多,而且傳奇性和喜劇感十足,早已深入人心。
但從算力技術主線和維度,可以倒推歸結為4個階段。
第一個階段,用分散式技術解決算力瓶頸。
在全球網際網路流量大爆發之前,企業算力的核心載體是小型機,通過線下自建或租用伺服器的方式解決算力問題,但對於身處消費網際網路方向上的企業而言,這種模式顯然越來越難以為繼。
阿里的算力攻堅,以及阿里雲端運算的肇始,就是基於這樣的背景。
2007年,為了應對指數級擴張的淘寶流量,阿里開始從業務底層的IOE(IBM小型機、Oracle資料庫、EMC儲存)尋求根本性解法,即後來的基於雲端運算搭建全新技術架構,打破「擴大采購規模」的線性侷限。
其後進一步為這套底層技術和上層業務開發作業系統,在2009年正式啟動了飛天,阿里雲也由此正式成立,沒想到日後會成為中國企業自研雲端運算的開端。

飛天雲作業系統的本質,是要用分散式架構替換中心化架構,可以讓全世界伺服器實現連接,既能快速應對突增的流量,還能讓計算資源真正像水電一樣即需即用。
所以「分散式架構」和發展方向,就是算力攻堅的核心第一仗,後面集群挑戰、故障運維、併發應對……都是正確方向之下的升級打怪。
結果則人人都感知到了。雙11購物不再卡頓,12306春運購票也逐漸不再被吐槽……這都是阿里在分散式運算思想下開花結果的功勞。
第二階段,從雲端運算需求和痛點,反向定義新硬體。
雲端運算的好處,一用即知,但虛擬化損耗的問題卻一度成為頑疾。
所謂虛擬化損耗,就是雲端調用線下伺服器的進程,本身就會吸走機器性能,造成算力浪費。
業內面對這一頑疾,往往採用更低成本的軟體最佳化方法,但顯然治標不治本,只能最佳化,不能根治。

阿里雲的方法是後來的神龍架構,打造了一個專用硬體來負責晶片不擅長的虛擬化排程工作,用軟硬體一體的思路真正做到了0損耗。
這讓阿里雲一下子坐穩了份額第一的位置,也帶來了更重要的開始:算力攻堅要向底層硬體、甚至晶片尋求解法。
軟硬一體化,軟體定義硬體,或者說雲端運算定義新硬體的趨勢……在阿里雲,以2017年9月第一代神龍架構推出作為標誌性節點。
第三階段,造芯,重塑整個IT硬體體系。
也就是當前所處的階段,以2017年達摩院成立,求解前沿晶片技術和2018年平頭哥半導體推出為標誌性事件,阿里雲真正從「軟」到「硬」,從雲端向下定義晶片。

當然這種求解,有宏觀社會責任擔當的原因,但在阿里雲發展方向裡,趨勢也早已再明顯不過。
一方面是去IOE體系之下的硬體進一步變革需求。另一方面,作為雲端運算服務提供商,不碰晶片,不碰硬體,其實就無法真正做到性能、成本和體驗的最優解。
於是可以看到,除了自研晶片,阿里雲還在伺服器、交換機等硬體方面做了系統性革新,以晶片為起點,幾乎重塑了整個IT硬體體系。
上一階段的神龍架構計算平臺,也在不斷升級,成為新物種:CIPU——向下可以對資料中心的計算、儲存和網路資源快速雲化並進行硬體加速,向上接入作業系統。
所以這就是終點了嗎?
從阿里雲已經交貨部署的成果來看,可以算是階段性終點了。
但如果放在算力攻堅的終局審視,或許還有兩個更宏大的時代級問題:
一是新型計算架構。整個產業都到了突破傳統馮·諾依曼架構儲存計算分離的性能瓶頸的關口,存算一體的新型大一統計算體系架構,被越來越多提及。
二是新型顛覆式計算形態,比如量子計算。
有意思的是,這兩大時代級問題,任何一個對於當前算力格局的影響,可能都會是核彈級的。

總的說來,只有如此全局式透視,以終點看起點和過程,才能更本質地看清阿里造芯、平頭哥模式的歸、去、來。
這背後是一家公司對於科技需求和科技發展挑戰的逢山開路,但同樣也是時代趨勢的具體對映和展現。
或許不用再贅述和論證了。
一個時代有一個時代的算力需求和挑戰,於是一個時代也就有一個時代的算力解決方案,進而一個時代就會有一個時代的造芯模式。
平頭哥模式,就是代表算力發展方向的代表性模式。

如何評價「平頭哥模式」?
最後,晶片全流程work,整個模式跑通,也意味著平頭哥出發時被寄予的期望和質疑,都到了可以重新評估的時候。
阿里造芯以來,噱頭、熱點和形象工程之說,從未停止。
但隨著倚天710年度性交卷,成為中國首個雲上大規模應用的自研CPU,此論可休矣。
而且倚天710創造的紀錄、展現的效用、開啟的正規化,必將帶來造芯模式上更大的啟發和變革。
其次,過去幾年雲端運算相關的格局洗牌猜想,同樣也到了有理有據的結辯時刻。
過去的市場份額是阿里雲一騎絕塵,因為出發得早。接下來的格局也依然會是阿里雲不可爭鋒,因為基於晶片和底層軟硬一體架構的壁壘,無人能比,短時間內無人能及。
而且業內業外,一種討論和新觀點也正在愈演愈烈:
新時代的科技競速,本質就是以算力為基建的競速。
下層基建決定了上層生態。底層基建決定了發展速度。
或許完全強調算力的作用,太過絕對。但誰也無法否認的是,算力正在成為科技發展中最基礎也最重要的生產要素。
而對於阿里和阿里雲來說,過去的積累和沉澱,在當前的時代級變革前顯得如此恰逢其時。

晶片、作業系統、資料庫、儲存、網路和上層應用……擁有全棧完整自研軟硬體技術體系的雲端運算提供商,中國目前僅此一家。
這是阿里之幸,也是時代給予的機遇。科技變革的規律,通常都是哪裡有痛點需求,哪裡就有解決方案和應對之策。
但上一波科技浪潮湧動之時,中國玩家沒能參與其中,基礎半導體的研發和定義,也完全處於跟隨狀態。
所以現在,終於終於有機會,可以在全新造芯正規化下,從新起點出發,參與硬科技創新的研發和定義。
或許這一次,也真正有這樣有意思的機會——
源自中國文化裡的兵器,比如玄鐵、含光、倚天、屠龍……被更多人追問、了解和感嘆。