​摩爾定律的突圍

50多年前,Intel創始人之一摩爾(Gordon Moore)提出了著名的摩爾定律,其內容為:積體電路上可容納的電晶體數目,約每隔兩年便會增加一倍;經常被引用的「18個月」,是由Intel執行長大衛·豪斯(David House)提出:預計18個月會將晶片的性能提高一倍,這是一種指數級的性能提升。摩爾定律並非自然規律,而應該被視為對未來積體電路發展的觀測或者預測,但是這樣的「預言」卻伴隨著積體電路半個多世紀的快速發展並不斷的「自我實現」。

從實際使用角度看,摩爾定律可以理解為微處理器的性能每隔18個月提高一倍,或價格下降一半。積體電路集成度越高,電晶體的價格就越便宜,這也就自然的延伸出了摩爾定律的經濟學意義,比如在20世紀60年代初,一個電晶體要10美元左右,但隨著電晶體越來越小,小到一根頭髮絲上可以放1000個電晶體時,每個電晶體的價格只有千分之一美分,也即當初價格的百萬分之一。

微處理器電晶體數量大幅上升

微處理器電晶體數量大幅上升

我們透過下面這個視訊就可以一窺積體電路從1965年到2019年的發展史,同時也看到摩爾定律和積體電路相互「競速飛奔「的55年。

視訊中可以看出,摩爾定律貫穿著從早期的IBM 用積體電路設計出電腦計算單元,到以Intel為代表的IDM半導體公司成立,再到以聯華電子和台積電為代表的Foundry廠商崛起,最終至目前以台積電為代表的晶圓製造作為核心的全產業鏈服務平臺的建立,其不斷實現的過程也是產業鏈持續進化的結果。

一、摩爾定律「死」了麼?

隨著新工藝節點的不斷推出,電晶體體積越來越小,種種物理極限制約著其進一步發展。比如當電晶體溝道區域長度足夠短的時候,量子穿隧效應就會發生,會導致漏電流增加,進而導致電晶體效能的下降。

摩爾定律是否已「死」?業內大咖有著不同的觀點。以Nvidia CEO黃仁勳為代表的一方認為摩爾定律已「死」,而以前AMD 首席架構師Jim Keller和台積電為代表的一方認為摩爾定律依然可以指引領積體電路行業發展,其實綜合兩方觀點看,表面相反的觀點但本質卻並不矛盾,黃仁勳認為半導體物理學的限制意味著如今CPU性能每年只能提升20%左右,摩爾定律已走向終結;而Jim Keller和台積電則認為摩爾定律並非簡單的描述單位面積晶圓上電晶體數量的變化趨勢,而是從高效能運算目標的實現角度講,依然有很多方法可以讓積體電路在面積可控的前提下實現計算性能的指數級增長,從而實現我們經常說到的高性能晶片設計和製造的PPA目標(High Performance,Low Power,Area Denser)。那麼在摩爾定律進入深水區以後,半導體的發展方向是什麼呢?

二、More than Moore’s Law的四種方向?

結合目前高效能運算晶片發展趨勢來講,透過等比例縮放電晶體長度的二維化模式來延展摩爾定律已經變得越來越難,我們需要從第一性原理出發來理解摩爾定律背後所反映的晶片發展規律,即晶片技術的持續進步是人類生產力不斷發展的縮影,摩爾定律是關於晶片技術進步的一種定量化的具體表現形式,我們將其目標簡單抽象概括為「單位面積晶片在每瓦每單位成本的基礎上實現更高計算能力」。雖然在先進製程進入到5nm以後,摩爾定律的實現已經有所放緩,但微觀層面晶片設計依舊將持續朝著更高的計算密度,更大的儲存密度和更緊的連接密度三個方向持續推進,同時行業新的理念和技術方法仍將為摩爾定律注入新的血液,比如採用非經典結構,從結構的設計及佈局來實現晶片面積的微縮,從而促使摩爾定律在「另類」層面得以實現。下面就摩爾定律未來的演進方式簡單展開:

1、電晶體結構由平面型向3D立體化演進

電晶體由Planar FET(平面場效應電晶體)向FinFET (鰭式場效應電晶體)發展,再到最新的以nanosheet FET(堆疊奈米片場效應電晶體)和nanowire(奈米線)為代表的GAA(Gate all around)的新一代電晶體結構, 本質上都是要解決晶片上電晶體中電荷洩漏到柵極附近導致開關效率不高的問題,從而提高運算性能並降低功耗。

2、由強調電晶體密度向強調功能密度過渡

所謂功能密度是指單位體積內包含的功能單位的數量,而功能單位是指能夠完成一定功能的邏輯單元,如ALU(算術邏輯單元),I/O Control Unit(輸入輸出控制單元),CPU(中央處理單元),Memory(儲存器)等,所以無論是多核設計,片上儲存或者高密度的線寬,還是異構計算的加速器,本質上是提升晶片的功能密度,電晶體密度不再是摩爾定律參考的唯一指標。

3、二維化擴展向異構集成過渡

晶片將由傳統的平面型製造和封裝技術向2.5D、3D等先進製造和封裝技術過渡,可將不同尺寸、製程工藝及材料的晶片組合,透過chip to chip或者die to die互聯技術製造出比單片晶片更靈活的可擴展晶片組,同時具有低功耗和高性能的特點。

4、由硬體發展向軟硬體一體化方式過渡

晶片計算性能的提升已經不止依靠簡單的增加核數或者主頻來實現,而是透過微架構的設計,異構計算的整合和專業的平行計算平臺部署來實現,無論是Intel、Nivdia、AMD或者Xilinx都在各自的應用領域構築了「雲+端」的一體化計算能力壁壘。

當前最能代表摩爾定律的技術方向是高效能運算晶片,但性能的提升卻逐漸從設計端向製造和封測端傾斜,我們透過對以上四點進行展開,來了解未來摩爾定律的延伸方向。

三、摩爾定律突圍的四種方式

1、電晶體結構和材料創新最摩爾定律直接的「續命」方式

1)Dennard Scaling 指導第一階

我們把摩爾定律的演進分為三個階段,第一階段是Dennard Scaling階段,這是摩爾定律下的一個細分理論,主要內容是電晶體的尺寸在每一代技術中都縮小了30% (0.7倍) ,這意味著電路減少了30% (0.7倍)的延遲,因此增加了約40% (1.4倍)的工作頻率,同時為了保持電場恆定,電壓降低了30% (電場強度=電壓/兩點場強距離,距離和工作頻率成反比),功耗降低了50% (與電壓平方成正比)。因此,在每一代技術中,電晶體密度增加一倍,電路速度提高40%,功耗可以保持不變。

工藝製程推動摩爾定律不斷實現

工藝製程推動摩爾定律不斷實現

在最初的3um到0.13um製程的提升過程中,Dennard Scaling都是有效的,但是0.13um以後Dennard Scaling便逐漸失效,主要原因是在晶片尺寸不變,電晶體變小,數量變多的情況下,溝道區域電流洩漏會導致電晶體升溫,從而導致晶片的功耗上升,打破了電晶體數量,計算速率和能耗之間簡單的線性遞推關係。反映到現狀,就是CPU廠商不再能簡單的依靠增加時脈頻率和核數來提高計算能力,因為整體功耗的大幅增加只會使一部分核處於理想的工作狀態。

2)新材料突破第二階段

為了防止電晶體溝道區域的電流洩露,需要縮小柵極和溝道區域的二氧化矽氧化層,用來增大柵極和溝道區域之間的電容。但在0.13um至28nm製程階段,氧化層已經不能再縮小了,電壓的影響也越來越大,這時候需要找到高介電常數(high-k)的物質,來增加電容,從而獲得低溝道漏電的效果,降低能量損耗。

中芯國際在2016年透過HKMG技術(添加high-k材料)實現了28nm製程良率大幅提升,而其14nm製程則採用了FinFET技術,相對於HKMG則是工藝上進一步的提升。

除了添加high-k材料外,碳奈米管作為全新的低溫材料,因具有較高的電子和空穴遷移率、穩定的結構和散熱性能,是構建高性能電晶體的理想溝道材料,使用碳奈米管材料取代矽時,甚至不需要採用類似於FinFET的電晶體堆疊技術,依然可以取得良好的效能。

3)電晶體結構創新

在製程大於28nm的時候,Planar (平面型)結構的電晶體是可以滿足Dennard Scaling的,積體電路依然可以依靠電晶體長度實現功能的線性擴展。

平面型半導體電晶體結構

平面型半導體電晶體結構

當製程小於28nm時候,SiO2介質會變得越來越薄,導致漏電電流越來越大,HKMG技術已經不能提高晶片良率和熱穩定性,這時候需要胡正明教授提出的FinFET結構電晶體才可以有效提升製程工藝穩定性。

FinFET電晶體大小介於病毒和碳奈米管之間

FinFET電晶體大小介於病毒和碳奈米管之間

2019年12月,國際電子電氣工程學會(IEEE)公佈了2020年IEEE榮譽獎章獲得者,華人學者胡正明獲獎,他是歷史上第三位獲得該獎項的華人學者,前兩位獲得者分別是前貝爾實驗室主任卓以和以及台積電創始人張忠謀。胡正明獲獎原因是他「開發半導體模型並將其投入生產實踐,尤其是3D器件結構,使摩爾定律又持續了數十年」。這項發明被看做是50多年來半導體技術的重大突破。胡正明於1999年先後提出了FD-SOI和FinFET技術,因此被稱為3D電晶體之父。

FinFET電晶體結構

FinFET電晶體結構

FinFET的的結構中,柵極三面包圍了整個溝道,相比於Planar結構,增加了對溝道的控制面積,也意味著漏電電流可以進一步降低。而FD-SOI本質上還是一種平面工藝,其關鍵點是在矽上添加一層很薄的氧化物薄膜層,更好的增強電晶體的靜電特性,但尺寸和厚度難以縮小,在到達12nm製程之後,效果將會大大減弱,目前來看,三星和Global Foundry在22nm-14nm製程環節採用FD-SOI技術,10nm-5nm階段採用FinFET技術,而台積電始終採用FinFET技術。

在Global Foundry和聯電宣佈放棄10nm以內先進製程追趕以後,目前只有台積電、三星、Intel和中芯國際四家廠商還在繼續打造半導體更先進的製程,其中台積電和三星則在2020年可以實現5nm製程量產,但Intel還停留在追求10nm製程階段,這導致Intel最新的Lakefield CPU可能依然採用自家的10nm工藝,但是對於加速性能要求更高的GPU,Intel即將推出的Xe Graphics系列獨顯產品將可能採用台積電的5nm製程,同7nm製程的Nvidia Ampere 和AMD RDNA 2競爭。

在3nm製程以後,兩家半導體制造巨頭台積電和三星的技術路徑便 「分道揚鑣」,台積電依然堅持FinFET 技術,而三星選擇更新的GAA技術(Gate-all-around),所謂GAA,是指全環柵電晶體,是一種繼續延續現有半導體技術路線壽命的較主流方案,可進一步增強柵極控制電流能力,使得底部與矽體完全隔離,因而洩漏電流即便在電晶體關閉時也不會流動,能克服當前技術的物理縮放比例和性能限制。

GAA電晶體結構

GAA電晶體結構

GAA結構不但要使用新型的電晶體結構,還要藉助新的材料工藝,那就是奈米線或奈米片。奈米線/片一頭作為源極,一頭作為柵極,同時被柵極包圍,電流沿著奈米線/片溝道傳輸,但因為奈米線太細,導致溝道電流傳輸效率和開關關斷效率較低,因此考慮寬度更大的奈米板,可以獲得更多溝道寬度以及電流,當寬度太大時,也可以考慮縮窄來降低功耗,這樣就具備了調整電晶體能效的靈活性,但是目前GAA工藝依然處於研發階段,具體效果只有等三星3nm風險試產以後才能看到。

同時,三星也提出了更加激進的電晶體結構工藝,即MBCFET(Multi bridge Channle FET)的結構,類似於將多個FinFET的結構再進行堆疊。電晶體縱向排列的好處顯而易見,提高了單位面積的電晶體數量,但結構的複雜性也讓電晶體的功耗成為一個問題,限制了堆疊技術的發展,未來提升效能的方向可能是我們上文提到的電晶體堆疊+碳奈米管新材料相結合的方式。

三星提出MBCFET技術

三星提出MBCFET技術

2、異構體系是延伸摩爾定律的有效途徑

當代社會快速發展下,HPC和AI對算力要求越來越高,在這樣的背景下,傳統的以馮·諾依曼為代表的通用計算架構已經不能滿足晶片發展需求,尖端計算晶片的發展將從通用計算架構向異構計算架構轉移,而異構計算架構主要有以下幾個特點:一是它由許多功能單元組成,異構計算架構通常有多個DIE,每個DIE專用於執行一種功能,比如儲存,計算和傳輸等。第二,是它打破了通用計算架構的「記憶體牆」,對計算和儲存的物理位置和訪問協議進行最佳化;第三,一般是在通用計算架構上創新設計或採用獨特的ASIC架構;第四,有時會用到新的程式語言和指令集。下面我們從對Chiplet和EMIB新型架構設計以及Cerebras和Groq加速器設計介紹來簡單展開。

1)AMD的Chiplet

說起晶片異構計算,讓筆者最早想到的是ARM提到的big.little架構理念,即異構核心理念,即讓處理器同時包括有低處理能力、低功耗的核心和高處理能力,高功耗的核心,同時共享快取,根據不同的運算需求排程不同的運算資源,這樣就能最大程度的平衡PPA,避免依靠單純提高時鐘速率(clock speed scaling)導致的暗矽效應(dark silicon)。我們經常看到的手機AP配置便是如此,比如市場傳言AMD可能要做的手機AP配置核心就包括兩顆Cortex-X1(頻率3GHz)+兩顆Cortex-A78(頻率2.6GHz)+4 顆Cortex-A55(頻率2GHz),這是一個考慮性能和功耗的均衡配置。

如果從ARM的架構理念延展開來,就不得不提最近AMD和Intel等大廠在力推的Chiplet技術,Chiplet是指一個晶片網路,透過將晶片設計中各複雜功能進行分解,然後開發出多種具有單一特定功能、可相互進行連接的裸晶片,實現資料儲存、計算、信號處理、信號傳輸等功能,並最終以此為基礎,建立一個die-to-die晶片網路,達到PPA的平衡。

Chiplet示意圖

Chiplet示意圖

AMD第二代EPYC伺服器處理器ROME採用Chiplet設計,將台積電先進製程7nm工藝製造的CPU模組與Global Foundry成熟製程12/14nm工藝製造的I/O模組組合,7nm可滿足高算力的需求,12/14nm則降低了製造成本。這帶來的好處是,7nm製程部分的晶片面積大幅縮減,而採用更成熟製程的I/O模組有助於整體良率的提升,進一步降低晶圓代工成本。

EPYC  Chiplet設計

EPYC Chiplet設計

如上圖所示,我們可以看到Chiplet 上IOD模組在中間位置,裡面包含記憶體控制器和PCIe通道 ,兩側各有1個CCX模組(每個CCX包含4個CPU核),AMD開發了他們之間互聯的接口協議Infinity Fabric,IOD 採用14nm 工藝,CCX中採用7nm工藝。

Chiplet讓處理器設計更便捷

Chiplet讓處理器設計更便捷

上圖中CCD其實是Core Chiplet Die的縮寫,是伴隨最新的Zen 2架構處理器所誕生的縮寫,標準化的CCD設計搭配伺服器的IOD模組和PC機的IOD模組,分別可以組成伺服器晶片Rome和PC晶片Zen 2。

2)Intel的EMIB

Intel所推進的EMIB技術和AMD強調的Chiplet大體上思路是一致的,Intel使用EMIB技術的代表產品是FPGU Agilex,Agilex的中心是FPGA的核心邏輯LUT(查找表),採用10nm打造,同時EMIB技術將LUT與Xeon處理器、SerDes收發器、PCIe Gen 5、 DDR5、HBM2和Optane持久記憶體的進行整合,打造了一個高級的異構封裝系統,其可被用於5G基站和打造資料分析的高級解決方案。

Intel EMIB技術

Intel EMIB技術

Agilex片上連接使用的是Intel開發的AIB總線技術(AMD對應的是 Infinity Fabric),Intel 沒有兼容 Infinity Fabric和Nvidia的Nvlink和NvSwitch總線技術,雖然三家都強調模組化設計,但是依然是「各自為政」的狀態,片內通訊接口的不兼容導致晶片設計和融合不方便,不利於各家廠商嫁接其他廠商的產品功能,不利於打造開放的計算平臺,各家依然築起了各自的生態壁壘。儘管有DAPRA (美國國防部高級研究計劃局)和OCP ODSA(開放計算項目)等項目在著力推進小晶片接口標準化,但獨立第三方小晶片供應的商業模式何時能在晶片產業中普及,尚未可知。

3)Cerebras的超大晶片

不同於傳統的晶片架構設計模式,Cerebras設計的晶圓級引擎(Wafer Scale Engine,WSE)晶片「簡單粗暴」, 一整個大片晶圓可以容納1.2萬億個電晶體,面積為46,225平方毫米,電晶體密度為0.26億/平方毫米,而Nvidia最新Ampere架構826平方毫米可以容納542億個電晶體,電晶體密度為0.66億/平方毫米。

Cerebras和Nivida Ampere對比

其實Cerebras是透過突破晶圓尺寸限制,以「劍走偏鋒」的大尺寸晶片設計提升計算和通訊效率,降低「記憶體牆」的影響,讓所有的核心都配有自己的片上記憶體,核心和儲存以及核心和核心之前的通訊效率大大提升,遠高於Infinity Fabric這樣的片內通訊技術和InfiniBand等片外技術,這樣就實現了我們前文所說的更高的電晶體密度(專為深度學習打造),更大的儲存密度(貼近核的片上儲存)和更緊的連接密度(高寬度,低延遲),達到了類似於小集群的計算能力,卻不需要建設小集群。

但Cerebras也是有一些難點需要克服,比如晶片的製造和封測難度比較大,尤其是封測需要將PCB、Substrate(基板)和Interposer(內插板)和晶片等堆疊,對尺寸、精度和功耗都有較高要求,需要有專業的高技術封測廠商才能完成。且根據玻色-愛因斯坦(BOSE-EINSTEIN)良率模型, Y = 1 /(1 + AD)^ k(Y為良率,A為晶片面積,D為缺陷密度,k為難度係數),晶片面積越大,良率越低,這也是Cerebras能否實現商業化需要解決的問題。

4)Groq的SDH(軟體定義硬體)

Groq是由谷歌TPU前工程師團隊打造的專注於雲端AI推理的高性能晶片,他們強調的核心理念是「軟體定義硬體」,即以單一核配置計算和儲存單元的形式來代替傳統的GPU多核模式,同時所有的操作都是透過軟體預先設定。

Groq結構圖

Groq結構圖

Groq的TSP(Tensor Stream Processor)的基本架構如上圖。它的每一個指令執行組Superlane包括Vector Unit,Memory Unit,Switch Unit和Matrix Unit,其中Vector Unit主要做一些簡單的算術邏輯運算,Memory Unit則是儲存單元,Switch Unit主要承擔張量資料的轉換和不同Superlane的資訊溝通,Matrix Unit承擔主要的複雜運算。資料在Superlane中沿「東西」方向雙向流動。每個執行的指令來自指令隊列,所有的指令形成一個類似VLIW(超長指令架構的144路指令),按從「北」到「南」的方向以脈動的形式傳遞。也就是一個Superlane裡的指令執行完之後,一條144路VLIW指令向下一個Superlane傳遞並執行,一共20條Superlane。這樣的處理方式類似於我們所說的FPGA的工作方式,對於低延遲的流式資料處理效果很好,因此在batch size比較小的時候,推理的效果是要比GPU這種擅長處理大批量同構資料的更好。

從這裡我們也可以思考,通用加速器對於硬體創業公司難度很大,而且在Nvidia擁有GPU+CUDA生態壁壘的情況下很難突圍,不如先做好軟體應用,然後top to bottom,做好針對性的加速硬體。

各功能單元之間有16通道

Groq並非採用傳統的「馮諾依曼」指數集架構,而是採用了資料流架構,簡化了硬體設計,不再有單獨的指令控制功能,而是透過資料流動次序,而不是指令執行次序保證計算執行順序,以壓縮計算資源的每一個空閒時鐘來提高計算效率,但與此同時,編譯功能的負擔卻加重了,需要同時安排好144路縱向指令和橫向320 byte資料流,而因為缺少暫存器之類的硬體,編譯器必須確保流資料在指定的時間可供函數單元執行指定的指令。

不同晶片配置

不同晶片配置

可以看出,Groq、Nvidia A100和Cerebras在產品設計方面都做了差異化的設計,以更好地平衡PPA目標。

異構計算快速發展的同時也出現了一定的隱憂,主要是因為各家廠商在高速互聯技術方面並不兼容和匹配,Intel不支持Nivdia的NvLink和NvSwitch,而AMD、ARM、Nvidia和Xilinx等公司先後搞出了CCIX、PCIe Gen-Z和OpenCAPI等開放記憶體互聯協議,巧的是,這三大開放互聯記憶體協議都將Intel排除在外,而Intel自己搞了CXL加速協議,在異構計算這塊,高速互聯技術協議的不統一,讓各家公司產品實現兼容變得困難。

3、晶片封裝將成為延續摩爾定律的重要一環

晶片封裝測試在傳統的印象裡一般有著「人力密集」、「技術含量較低」和「利潤率較低」的標籤,但隨著摩爾定律走進「深水區」以及晶片設計和製造愈發複雜以後,先進封裝技術的重要性也越來越凸顯。我們知道世界知名的封裝廠除了ASE(日月光)、Ankor(安靠)以及長電科技這類OSAT廠以外,還有台積電和三星這類晶片製造和封裝一體化的公司,因為中低端封裝屬於價值曲線的底部,遵循成本領先的戰略,而高端封裝主要面向手機SOC, HPC晶片和AI晶片等業務,需要和製造工藝緊密結合,所以地理位置上貼近客戶端和製造端成為封裝廠的核心優勢之一,從這一點上講,未來製造和封測一體化的趨勢將會越來越明顯,在高性能晶片方面,台積電和三星這類公司比OSAT公司更有優勢。

回到摩爾定律的話題,高端封裝技術從中觀的系統角度出發更有針對性的提升晶片的功能密度,即透過將系統晶片高度集成到一個模組內,我們稱之為系統級封裝,用來實現我們前文所說的更高的電晶體密度,更大的儲存密度和更緊的連接密度,系統級封裝模組的體積決定著相同面積上的晶片可以集成器件數量,合理的模組設計體現出集成性(integration)、連接性(interconnection)和智慧化(intelligence)的三個方面的平衡。

2.5D或者3D封裝技術便體現出系統級封裝的工藝水平,把不同功能的晶片或結構,透過堆疊技術或過孔互連等微機械加工技術,使其在垂直方向上形成立體集成和信號連通的技術。因為在垂直方向上有了功能和信號的延伸,所以有晶片堆疊的一般都可以稱之為2.5D或者3D(區分後面講到)。3D封裝運用到的技術有封裝堆疊(PoP)和矽通孔技術(TSV)等。

系統級封裝技術的重要性可以從當年台積電利用其先進的Fanout PoP堆疊封裝技術,擊敗三星從而獨享整個蘋果A12的製造和封測訂單看出,之後無論是海思採用的FCCSP PoP技術海思高通採用的MceP PoP可以說都是3D封裝技術的不同表現形式,可見高性能晶片生產越來越依靠廠商先進製程和先進封裝的綜合能力。

我們一一對平面封裝、2.5D封裝和3D封裝進行結構展示:

傳統平面封裝

傳統平面封裝

平面封裝頻寬寬度有限,資料傳輸延遲較高,佔用空間大,能耗水平也相對較高。

過渡性質的2.5D封裝

過渡性質的2.5D封裝

2.5D封裝是一種過渡的形式,目前Intel FPGA Agilex採用的EMIB封裝形式就是2.5D封裝,不過後續Intel 預計會對Xe Graphics GPU等新產品採用Foveros 3D封裝形式。

3D封裝

3D封裝

3D封裝透過TSV(through silicon via)技術將高速儲存HBM2和邏輯晶片連接起來,有效縮短互連線長度,減少信號傳輸延遲和損失,提高信號傳輸速度和頻寬,降低功耗和封裝體積,實現多功能、高性能、高可靠性且更輕、更薄、更小的晶片系統級封裝。其中矽中介層(interposer)對於TSV技術至關重要,一般矽中介層會佈置由晶圓廠製造的有源電路,主要的I/O接口(如DDR或HBM2)電路將會在這塊有源矽載片上實現,因為I/O電路並不需要10nm這樣的尖端工藝,使用22nm或14nm無論是對於成本、良率還是混合電路設計難度來說都是最適合的。這樣有源中介層集成了開關電容器穩壓電路、邏輯晶片、靈活的分散式互聯和片上儲存器各個部分,並將它們連接在一起,可提供節能的多核計算架構。

系統級封裝的進展歷程

系統級封裝的進展歷程

系統級封裝逐漸提升封裝密度,降低功能單元體積和麵積大小的同時提高I/O連接數,更好地實現PPA目標。

我們先從擁有最先進封裝技術的台積電講起,台積電將其封裝技術稱為晶圓級系統集成(Wafer Level System Integration),是其最主要的四個核心業務之一,Nivdia最新的Ampere架構GPU A100就是採用台積電7nm製程+CoWoS封裝技術(Chip on Wafer on Substrate)

Nvidia的Ampere採用CoWoS封裝技術

GPU A100由542億個電晶體組成,採用的CoWoS技術將HBM2儲存器安置在與GPU晶片相同的有源中介層和基板上,I/O連接密度大幅提升,可以提供近1.6TB/s的儲存頻寬,大幅超過V100系列的900GB/s頻寬。

除了提到的A100系列,海思和Xilinx也曾使用過台積電的CoWos技術進行晶片封裝,而除了高效能運算晶片以外,索尼也曾設計過3層堆疊的CMOS晶片,大大提高了像素的傳輸速率和處理性能。

索尼三層堆疊背照式CMOS

索尼三層堆疊背照式CMOS

索尼的3D像素堆疊技術將CMOS的像素層和邏輯層進行了分離和堆疊,並在他們之間添加一層Dram,上下之間透過TSV技術進行連接,這樣做可以提升CMOS晶片的面積佔比,同時也能縮小其尺寸,而Dram的存在使得它可以在晶片上以超過24fps幀率的速度快取180張以上原始的2000萬像素圖像,而且模數轉換後的資料不會再因為MIPI-CSI總線傳輸能力有限而阻塞,這些資料可以被處理成一個檔案並傳輸進記憶體晶片,然後再統一進行傳輸。

如果我們考慮在邏輯層添加AI處理器,則可以將圖片資訊在邊緣側進行處理或者機器學習,相比於分立式的AI處理器資料傳輸效率更高,功耗更低,能夠廣泛應用於AIOT、工業和安防等領域。

4、通訊技術是摩爾硬體魔法的重要補充

摩爾定律是作為硬體的晶片自我實現的一條路徑,但單依靠硬體已經無法滿足下游伺服器和高效能運算的與日俱增的需求,摩爾定律的延伸需要透過通訊技術或者軟體來實現。

2020年4月,Nvidia擊敗Intel,支付超過70億美元成功收購了Mellanox和Cumulus Network,分別從智慧網路晶片、高速互聯技術和網路系統管理軟體兩方面入手,以軟硬體相結合的方式對資料中心的通訊進行最佳化和加速,大大提升了其在高效能運算領域的話語權,可以說,Nvidia已不再是一個單純的GPU公司。

我們知道,乙太網連接加速器最早可以追溯到微軟2015年就開始在其雲端運算服務Azure中佈局的Project Catapult,這是透過乙太網連接的FPGA在資料中心對服務進行加速的方案。該方案在每臺伺服器的CPU和NIC(網路卡)之間放置一個有自己協議棧的FPGA,FPGA利用伺服器之間的乙太網進行互聯通訊,而FPGA的本質是對CPU處理網路通訊的功能進行卸載(offload),由FPGA來專門處理伺服器之間的通訊,這樣可以讓CPU專注於計算。Mellanox和Cumulus大大增強了Nvidia在資料中心的計算能力,而計算能力的提高,並非透過晶片升級來實現,而是透過網路加速來實現。

Offload讓資料的移動和指令控制分開

Offload讓資料的移動和指令控制分開

那麼收購Mellanox和Cumulus的具體用處體現在哪裡? 這就要從資料中心的可擴展性(scalability)說起,Nvidia最新發布的DGX A100加速器可以集成8塊A100 GPU和2塊 AMD的EPYC系列伺服器CPU,而單片DGX A100中需要讓8塊GPU和兩塊CPU實現兩兩互聯,GPU之間的互聯透過Nvidia Link和Nvidia Switch實現,而GPU和CPU的互聯透過PCIe- Gen 4實現,複雜的連線使得單片所能容納的GPU和CPU數量有限,為了能夠保證GPU組之間的高效通訊用以支持高效能運算工作,這時候就需要實現片間或者伺服器之間的高效互聯。為此Nvidia透過使用RDMA技術來解決伺服器之間的通訊問題,所謂RDMA指遠端直接資料存取,使得伺服器之間可以繞開CPU直接與網路卡交換資料,這樣,RDMA協議就能夠使GPU透過網路,直接讀取另外的GPU中的資料,克服了GPU不支持乙太網協議棧不能直接處理網路卡中資料的弱點,降低了CPU和記憶體的壓力,大大提升了資料中心資料的交換效率。

Nivlink和NivSwitch連接的複雜性

Nvidia此次收購的Mellanox擁有InfiniBand協議產品,是RDMA的網路協議的一種,該協議可以大大提升了資料中心人工智慧訓練的速度和效率,牢牢佔據人工智慧相關雲端伺服器資料互聯產品的高地,幫助Nvidia補齊在雲資料中心架構方面的短板。

InfiniBand技術大大提升資料中心效率

InfiniBand技術大大提升資料中心效率

我們也把InfiniBand這類技術稱為SmartNIC(可以理解為智慧網路卡),其突出強調的兩點屬性,即透過專用的硬體產品卸載CPU的通訊節點功能,並且為普通NIC增加處理器,以方便周邊設備透過控制系統總線來直接訪問記憶體。隨著軟體定義網路(SDN)和網路功能虛擬化(NFV)的發展,SmartNIC也順應趨勢驅動了資料中心虛擬化的發展。

我們看到雖然競購Mellanox失敗,但是作為伺服器晶片巨頭的Intel並不甘示弱,轉手就收購了Barefoot. Barefoot是一家乙太網交換機晶片研發公司,自定義了自家的晶片架構PISA,並設計了相應的程式語言P4,直接對標交換機晶片龍頭Broadcom,同時Barefoot能為Intel提供資料中心完整的網路功能,驅動資料中心SDN的發展,實現儲存、網路和接口的硬體虛擬化,讓Intel得到了精細的軟硬體資源管理能力,從而更好地為客戶提供大型資料中心服務。

四、摩爾定律進入深水區有何影響?

透過前文的描述,我們知道在Dennard Scaling失效後,單純依靠電晶體尺寸線性縮小來推進摩爾定律變得越來越困難,而且技術的發展也讓我們認識到,所有的晶片設計都是在做一個關於PPA的tradeoff的工作,因此在摩爾定律走向深水區以後,便衍生出了關於推進摩爾定律前進的多種路徑,比如從電晶體結構、電晶體材料、高功能密度的晶片設計、異構封裝和軟硬結合多角度來推進其不斷前行,而在這其中扮演重要角色的企業涉及到產業鏈的方方面面,包括晶片設計,晶片製造,晶片封裝,網路通訊和程式設計企業等,但萬變不離其宗,總結起來,以上方式都是朝著更高計算密度,更大的儲存密度和更緊的連接密度三個方向持續推進,最終都是為了實現「單位面積晶片在每瓦每單位成本的基礎上實現更高計算能力」這個終極目標,那麼在摩爾定律進入深水區以後,會對行業哪些領域未來發展有比較大的影響呢? 筆者認為有以下四個方面。

1、EDA向差異化方向發展

首先,隨著晶片設計尤其是加速器設計愈加複雜以及異構封裝的崛起,EDA的重要性也越來越凸顯,積體電路邏輯仿真、功能驗證的工具日益成熟也將設計帶入更加複雜的階段,設計過程和製造和封裝過程結合越來越緊密,工程師們通常需要設計出集成CPU / GPU / TPU與一個或多個高頻寬記憶體(HBM)的更加複雜的晶片,這對於EDA的系統級抽象要求更高,設計範疇從晶片擴展到系統,從而提高整個系統設計的一致性,因此無論對於傳統的EDA三強還是新興的創業公司,既是挑戰,又是機遇。

其次,目前主流的EDA對x86和Arm架構支持較多,而對RISC-V等架構支持較少,主要是因為目前RISC-V等開源架構生態基礎薄弱,與Arm比缺少對GPU和連接技術等IP支持,下游應用較少,目前基本只面向對處理器有定製化需求的客戶,且往往只作為協處理器,市場空間有待開發,但是隨著客戶基於需求多元化、產品安全性和功能複雜性的考慮越來越多,RISC-V靈活多樣的定製化能力和擴展性還是可以給很多EDA創業公司帶來一個細分領域的市場機會。

第三,異構計算和系統級封裝的發展,促使各大公司都會提出自己的晶片架構和封裝技術,這時候包含技術標準、規範和協議的IP和工藝重要性日益凸顯,EDA可以依靠生態影響力把行業的IP和通用工藝需求固化和領域需求差異化,為專用領域,比如汽車電子,高效能運算等領域提供打包的一攬子解決方案,滿足該領域的行業標準及合規性。

第四,新技術的發展促使著EDA的使用方式發生變革,比如人工智慧技術開始對EDA產生影響,谷歌研究人員針對晶片設計流程中佈局佈線階段提出了一種基於深度強化學習的晶片佈局方法,建立了更準確的參數模型,最佳化參數分析過程。與此同時,EDA走向雲端已經初露端倪,並將深刻影響晶片設計流程和模式,降低晶片開發成本,RISC-V架構設計公司SiFive與台積電、微軟、Cadence合作,實現了基於雲端設計高性能SoC晶片,這也是業界首款採用雲端運算方式開發出來的晶片。雲化服務讓EDA公司從按照軟體使用收費轉為按照服務質量進行收費,但目前雲服務的最大阻礙就在於EDA行業的高度壟斷,大的EDA公司對此目前只是試水階段。

2、IP業務將蓬勃發展

不同於EDA行業市場集中度高企,IP業務市場比較分散,各個IP公司都會圍繞晶圓製造和客戶具體需求做專業化定製,IP業務的發展前景主要體現在:

首先是處理器IP的多元化,包括圍繞開源的RISC-V架構和逐漸開放的PowerPC架構和MIPS架構進行IP業務建設,而下游應用端的客戶基於產品多樣性和安全性角度考慮,需要在x86和Arm兩大指令集和晶片架構外定製新的晶片架構,而RISC-V架構、PowerPC架構和MIPS架構可以給晶片設計者和下游應用帶來了廣泛的選擇的機會,降低晶片的設計門檻,給晶片設計帶來了發展活力,比如阿里巴巴打造了基於RISC-V的高效能運算晶片玄鐵910,同時國內也有睿思芯科、芯來科技和康佳等圍繞RISC-V架構開發的IP公司。另外,在加速器方面,針對客戶的訓練和推理需求不同,專業的IP公司還可以為客戶打造針對ISA(指令集)的定製化晶片架構,工具和軟體編譯器,設計高效的資料訪問和處理技術,這方面的代表公司包括以色列的Ceva和台灣的Andes。

其次,關於I/O連接,儲存,乙太網PHY解決方案等非處理器IP業務佔比將會逐漸提升,在異購計算和系統級封裝中,晶片的設計和封裝會逐漸專業化和標準化,晶片設計公司可以自行設計晶片架構,同時採購其他公司的高速連接IP,模擬信號IP和儲存編譯器IP等,組合成SOC或者SIP,整個過程就像「搭積木」一樣,實現IP的高可複用,但是無論是向上對接工藝,還是向下對接應用場景,都是一個需要不斷調整試錯的過程,標準模式不會一成不變,一蹴而就,這方面的代表公司是台灣公司M31和儲存技術IP公司Rambus。

第三,上下游產業結合愈加緊密,IP公司市場份額相對分散化,每家公司專注於自身的細分業務領域,一方面需要向上和製造以及封裝工藝配合,另一方面也要緊緊貼合客戶需求為客戶定製相應IP。台積電作為晶片製造龍頭,在整合IP公司方面走在了行業前列,透過吸引IP公司和晶片設計公司與台積電組成開放創新聯盟( TSMC Open Innovation Platform),台積電公佈相關IP標準,在IP公司提交相關IP方案到台積電的開放平臺後,台積電審核過後予以公佈,同時Fabless客戶也會根據自身採用相關IP方案,並最終由台積電代工,這樣可以降低Fabless客戶的晶片設計成本(TCO)。

台積電IP平臺業務流程

台積電IP平臺業務流程

除了打造IP平臺以外,台積電還控股了台灣IP公司創意電子(GUC),創意電子主要做CPU和ASIC晶片設計的IP服務,同時深入結合台積電製造和封測業務流程,為客戶提供一站式全流程服務;而聯電則參股IP公司智原,為客戶提供SOC和ASIC晶片設計,也與聯電的製造業務密切配合;力積電投資了力旺,力旺則專注於儲存領域的IP業務。可以說,晶片製造公司與IP公司密切合作已經成為趨勢,IP公司是晶片製造公司對接晶片設計公司的一個窗口。

除此之外,由中芯國際前董事長張汝京創辦的芯恩(青島)積體電路首創了CIDM(Commune IDM)模式,該模式是以產品為導向,以晶片製造公司為主體,基於市場及客戶直接的需要,透過聯合產業鏈上下游各方主體,將產業做完整的協同式整合,結合設計、工藝研發、生產製造,為終端客戶的需求提供高品質、高效率的產品,相當於一種產業鏈各方共享資源的共有制IDM公司,這也是產業鏈上下游緊密合作的代表案例。

除了對接製造和封測等工藝端,一些IP公司還會與下游客戶緊密合作,為客戶打造基於特定應用的IP產品,比如GPU的IP公司Imagination與北汽合作成立汽車晶片公司,專注於面向ADAS的應用處理器和麵向智慧座艙的語音互動晶片研發,並從Imagination獲得GPU和神經網路加速器(NNA)的IP授權。除此之外, Socionext則開發了針對客戶在消費、工業、安防和汽車等不同領域定製化設計成像解決方案的Soc,同時與多家晶片製造廠合作,使得這些製造廠所有的生產能力和公司質量管理體制及設計IP能力形成優勢互補。

最後,IP公司其實是半導體行業的服務型公司,我們俗稱的「賣水人」,衍生出新的業務模式,除了IP授權(License+Royalty),還包括委託設計(NRE),晶片設計,製造和封裝全流程方案(Full Turnkey),駐場服務(FAE)和多客戶晶圓驗證服務(MPW)等, 從本質上講就是降低客戶晶片設計和製造成本,提高晶片研發效率。隨著5G技術發展,衍生出越來越多的垂直領域需求和利基市場,IP公司的服務能力顯得尤為必要。

目前全球最大的IP公司主要包括美國的Synopsis、Cadence、SST、Imagination等,筆者認為這些IP公司規模體量大,歷史悠久,之前在EDA等領域深耕多年,具有豐富的研發經驗和深厚客戶基礎,但要說最具產業集群模式和參考意義的IP公司,非台灣IP公司莫屬。

台灣主要IP公司情況

台灣主要IP公司情況

我們看到晶心科,力旺和M31這些前沿的IP服務公司在台灣股市估值很高,表現出市場對新興處理器和非處理器類的儲存以及連接領域IP公司的看好,而根據semiwiki資料,非處理器的IP市場2019年市場規模為8.7億美元,複合增速為13%,預計到2024年市場規模為16億美元,增速要高於處理器IP市場4%的複合增速。

非處理器IP市場規模和增速

非處理器IP市場規模和增速

雖然台灣這兩年IP公司蓬勃發展,但我們需要注意的是,台灣IP公司發展是晶片行業發展的自然產物,也是台灣半導體肥沃土壤的結果,摩爾定律進入深水區以後,行業的重心將逐漸轉移到製造和封測端,同時行業的分工也會更加細化,半導體制造和封測公司搭建了一個產業平臺,吸納IP公司,尤其是非處理器類業務的IP公司共同發展,建立生態,成為未來行業的一個新方向,而大量優秀的IP公司誕生在台灣這個世界半導體制造高地也就不足為奇了。同時我們對比大陸,雖然有了中芯-長電,青島芯恩以及廣東粵芯等半導體產業鏈生態的雛形,但是在IP公司多元性以及業務競爭力方面,我們還需要不斷加強。

3、先進製造和特殊製造工藝會齊頭並進

在台積電,三星,Intel和中芯國際為先進製程你追我趕,突飛猛進時,我們也看到一些製造廠放棄了對於先進製程的追趕,轉而專注於成熟製程或者特色工藝,比如Global Foundry、聯電和穩懋等。

各大廠製程進度

各大廠製程進度

對先進製程的追趕是摩爾定律不斷延伸的直接手段,但是14nm以後的先進製程對資本投入要求非常高,能夠追趕先進製程的製造廠目前也只有四家,且目前能夠用到先進製程的領域也只有HPC/手機SOC等對計算性能要求高的領域,因而大部分製造廠則專注於成熟製程,利用自身的優勢定位於細分行業做差異化競爭。比如專注於Si-Ge工藝的高塔半導體(TowerJazz),是很多光電子晶片設計公司的重要供應商,台灣穩懋專注於GaAs技術代工,三安集成則是大陸領先的專注於GaN、SiC和Vcsel器件的代工企業。可見,寬禁帶半導體、GaAs射頻、光電子以及Mems等領域,是未來專注於差異化的成熟製程晶片製造廠的選擇方向。

4、先進封裝業務重要性將得到提升

台積電在半導體封裝業務的重視使我們看到封裝業務的重要性,從早年依靠先進的FCPOP封裝擊敗三星獨享蘋果手機晶片製造和封裝業務訂單,到最近計劃投資100億美元建立先進封裝廠,我們都意識到先進封裝已經不再是簡單的人力密集型行業,而是與製造緊密配合,能夠限制提升晶片性能和功耗水平的技術密集型行業。而台積電這樣的製造公司做起封裝業務,在工藝協調性和成本最佳化方面,要比單獨的OSAT封裝公司更具有優勢。

先進封裝發展趨勢

先進封裝發展趨勢

先進封裝的發展模糊了半導體產業鏈的邊界,比如在過去電子製造行業形成了晶圓製造、封測和系統組裝三個環節,代表廠商分別是台積電、日月光和鴻海,他們的技術精度分別是奈米、微米和毫米級別。隨著消費電子產品集成度的提升,部分模組、甚至系統的組裝的精度要求逼近微米級別,跟封測環節在工藝上產生了重疊,業務上產生了競爭或協同。

目前先進封裝主要用在HPC\手機SOC\消費電子射頻等領域,我們拿消費電子來舉例,比如高通推出了集成手機AP,天線和射頻的方案QSip,這是相對於射頻Aip更進一步的先進封裝技術,適應了5G技術對於手機高集成度,良好散熱和信號損耗盡可能少的要求,預計未來QSip技術會進一步囊括PMIC、Wifi晶片和LPDDR等元器件,使得手機組裝和製造更加簡潔。同時,無論從Apple Watch的Sip封裝還是到Airpods Pro的H晶片Sip封裝,我們都能確定先進封裝是適應客戶需求和產業發展趨勢的。

隨著先進製程技術程度的提高,產業發展也會出現分化,一類比如大而全的晶片封測公司,如日月光、安靠、長電科技等;一類是專注於CIS等細分領域的封測公司,以自身的差異化取得競爭優勢,比如晶方科技,同欣電子,勝麗和精材科技等。

所以筆者認為摩爾定律並沒有「死」,晶片技術依然沿著摩爾定律的路徑不斷進步,只是演繹的方式有所變化。

五、參考文獻

1、https://www.eefocus.com/component/461691

2、https://zh.wikipedia.org/wiki/%E6%91

%A9%E5%B0%94%E5%AE%9A%E5%BE%8B

3、https://www.nextplatform.com/2019/

10/23/a-look-inside-the-groq-approach-to-ai-inference/

4、https://www.nextplatform.com/

2020/05/28/diving-deep-into-the-nvidia-ampere-gpu-architecture/

5、http://news.eeworld.com.cn/mp

/ymc/a88744.jspx

6、http://www.semiinsights.com/s/electronic

_components/23/39701.shtml

7、https://www.tsmc.com/english/

dedicatedFoundry/index.htm

8、https://www.hotchips.org/

9、https://www.cerebras.net/

10、https://www.intel.com/content/www/us/en

/products/programmable/intel-agilex-intro.html

11、https://fuse.wikichip.org/news/763/

iedm-2017-sonys-3-layer-stacked-cmos-image-sensor-technology/

12、https://www.mellanox.com/

13、http://news.eeworld.com.cn/mp/Icbank/

a75287.jspx

14、https://new.qq.com/omn/20180709/

20180709A1TLWH.html

15、https://www.amd.com/en

16、https://semiwiki.com/ip/arm/288187

-interface-ip-category-to-overtake-cpu-ip-by-2025/

17、https://v.qq.com/x/page/c09212v402k.html

18、https://spectrum.ieee.org/semiconductors/

processors/the-multiple-lives-of-moores-law

相關文章

什麼是虛擬化 / 虛擬機器?

什麼是虛擬化 / 虛擬機器?

近年來,「虛擬化」這個概念可謂炙手可熱。 對虛擬化最常見的解釋是:把一臺伺服器,虛擬成相互隔離的多臺「虛擬伺服器」,也叫「虛擬機器」。 真是...

摩爾走了,但摩爾定律長存

摩爾走了,但摩爾定律長存

「積體電路上可容納的電晶體數目,約每隔兩年便會增加一倍。」 這就是著名的「摩爾定律」。 這一著名論斷自1965年提出之後,已見證了全球半導體...