
拿投資和賺錢之前,要先去了解下成本。
ChatGPT 能否取代 Google、百度這樣的傳統搜尋引擎?為什麼中國不能很快做出 ChatGPT?當前,對這些問題的探討大多囿於大型語言模型(LLM)的技術可行性,忽略或者非常粗糙地估計了實現這些目標背後的經濟成本,從而造成對 LLM 的開發和應用偏離實際的誤判。
本文作者從經濟學切入,詳細推導了類 ChatGPT 模型搜尋的成本、訓練 GPT-3 以及繪製 LLM 成本軌跡的通用框架,為探討 LLM 成本結構和其未來發展提供了可貴的參考視角。
重點概覽:
- LLM 驅動的搜尋已經在經濟上可行:粗略估計,在現有搜尋成本結構的基礎上,高性能 LLM 驅動搜尋的成本約佔當下預估廣告收入/查詢的 15%。
- 但經濟可行並不意味著經濟合理:LLM 驅動搜尋的單位經濟性是有利可圖的,但對於擁有超 1000 億美元搜尋收入的現有搜尋引擎來說,添加此功能可能意味著超 100 億美元的額外成本。
- 其他新興的 LLM 驅動業務利潤很高:比如 Jasper.ai 使用 LLM 生成文案,很可能有 SaaS 服務那樣的毛利率(超 75%)。
- 對於大公司而言,訓練 LLM(即使是從頭開始)的成本並不高:如今,在公有云中訓練 GPT-3 僅需花費約 140 萬美元,即使是像 PaLM 這樣最先進的模型也只需花費約 1120 萬美元。
- LLM 的成本可能會顯著下降:自 GPT-3 發佈的兩年半時間裡,與 GPT-3 性能相當的模型的訓練和推理成本下降了約 80%。
- 資料是 LLM 性能的新瓶頸:與增加高質量訓練資料集的大小相比,增加模型參數的數量能獲得的邊際收益越來越小。
01
動機
LLM 的驚人表現引發了人們的廣泛猜想,這些猜想主要包括 LLM 可能引發的新興商業模式和對現有模式的影響。
搜尋是一個有趣的機會,2021 年,僅Google就從搜尋相關的廣告中獲得了超 1000 億美元的收入 [1]。ChatGPT(一個使用 LLM 的聊天機器人,它可以生成高質量的答案,以回答類似於搜尋的查詢)的「病毒性」傳播已經引發了許多關於搜尋領域潛在影響的思考,其中一個就是 LLM 如今的經濟可行性:
- 一位聲稱是Google員工的人在 HackerNews 上表示,要想實施由 LLM 驅動的搜尋,需要先將其成本降低 10 倍。
- 與此同時,微軟預計將在 3 月份推出 LLM 版本的 Bing[3],而搜尋初創公司如 You.com 已經將該技術嵌入到了他們的產品之中 [4]。
- 最近,《紐約時報》報道,Google將在今年推出帶有聊天機器人功能的搜尋引擎 [5]。
更廣泛的問題是:將 LLM 納入當前產品和新產品的經濟可行性如何?在本文中,我們梳理了當今 LLM 的成本結構,並分析其未來可能的發展趨勢。
02
重溫 LLM 工作原理
儘管後續章節的技術性更強,但這篇文章對機器學習熟悉程度不做要求,即使不熟悉這方面內容的人也可以放心閱讀。為了說明 LLM 的特殊之處,現做一個簡要複習。
語言模型在給定上下文的情況下,對可能輸出的 token 作出預測:

自迴歸語言模型(Autoregressive Language Model)輸入上下文和輸出內容的圖示(在實踐中,token 通常是子詞:即「happy」可能被分解為兩個 token,例如「hap」、「-py」)
為了生成文字,語言模型根據輸出 token 的概率重複取樣新 token。例如,在像 ChatGPT 這樣的服務中,模型從一個初始 prompt 開始,該 prompt 將使用者的查詢作為上下文,並生成 token 來構建響應(response)。新 token 生成後,會被附加到上下文窗口以提示下一次迭代。
語言模型已經存在了幾十年。當下 LLM 性能的背後是數十億參數的高效深度神經網路(DNN)驅動。參數是用於訓練和預測的矩陣權重,浮點運算(FLOPS)的數值通常與參數數量(parameter count)成比例。這些運算是在針對矩陣運算最佳化的處理器上計算的,例如 GPU、TPU 和其他專用晶片。
隨著 LLM 參數量呈指數增長,這些操作需要更多的計算資源,這是導致 LLM 成本增加的潛在原因。
03
LLM 驅動搜尋的成本
本節,我們將估算運行 LLM 驅動搜尋引擎的成本。應該如何實施這樣的搜尋引擎仍是一個活躍的研究領域,我們這裡主要考慮兩種方法來評估提供此類服務的成本範圍:
1、ChatGPT Equivalent:一個在龐大訓練資料集上訓練的 LLM,它會將訓練期間的知識儲存到模型參數中。在推理過程中(使用模型生成輸出),LLM 無法訪問外部知識 [6]。
這種方法有如下兩大缺點:
- 容易「幻想」事實。
- 模型知識滯後,僅包含最後訓練日期之前的可用資訊。
2、2-Stage Search Summarizer:一種架構上類似的 LLM,可以在推理時訪問 Google 或 Bing 等傳統搜尋引擎。在這種方法的第一階段,我們通過搜尋引擎運行查詢以檢索前 K 個結果。在第二階段,通過 LLM 運行每個結果以生成 K 個響應,該模型再將得分最高的響應返回給使用者 [7]。
相比 ChatGPT Equivalent,這種方法的優點是:
- 能夠從檢索到的搜尋結果中引用其來源。
- 能獲取最新資訊。
然而,對於相同參數數量的 LLM,這種方法需要更高的計算成本。使用這種方法的成本也增加了搜尋引擎的現有成本,因為我們在現有搜尋引擎的結果上增加了 LLM。
一階近似:基礎模型 API
最直接的成本估算方法是參考市場上現有基礎模型 API 的標價,這些服務的定價包括成本的溢價部分,這部分是供應商的利潤來源。一個代表性的服務是 OpenAI,它提供基於 LLM 的文字生成服務。
OpenAI 的 Davinci API 由 GPT-3 的 1750 億參數版本提供支持,與支持 ChatGPT 的 GPT-3.5 模型具有相同的參數數量 [8]。現在用該模型進行推理的價格約為 0.02 美元/750 個單詞(0.02 美元/1000 個 token,其中 1000token 約等於 750 個單詞);用於計算定價的單詞總數包括輸入和輸出 [9]。

按模型功能劃分的基礎模型 API 定價 (OpenAI)
我們這裡做了一些簡單假設來估計將支付給 OpenAI 的搜尋服務費用:
1、在 ChatGPT equivalent 的實現中,我們假設該服務平均針對 50 字的 prompt 生成 400 字的響應。為了產生更高質量的結果,我們還假設模型對每個查詢取樣 5 個響應,從中選擇最佳響應。因此:

在 2-Stage Search Summarizer 的實現中,響應生成過程是相似的。然而:
- 提示明顯更長,因為它同時包含查詢和搜尋結果中的相關部分
- 為每 K 個搜尋結果生成一個單獨的 LLM 響應
2、假設 K = 10 並且搜尋結果中的每個相關部分平均為 1000 個單詞:

3、假設最佳化的快取命中率為 30%(Google歷史搜尋快取命中率的下限 [10])和 OpenAI 雲服務的毛利率為 75%(與典型的 SaaS 服務一致),我們的一階估計意味著:

按照數量級,ChatGPT Equivalent 服務的預計雲端運算成本為 0.010 美元/次,與公眾評論一致:

OpenAI 執行長 Sam Altman 談 ChatGPT 每次聊天的成本[Twitter]
(https://twitter.com/sama/status/1599671496636780546?lang=en)
鑑於 ChatGPT Equivalent 的上述缺點(即幻想事實、模型資訊陳舊),在實際操作中,LLM 驅動搜尋引擎的開發者更可能部署 2-Stage Search Summarizer 變體。
2012 年,Google搜尋主管表示,其搜尋引擎每月處理的搜尋次數達 1000 億次 [11]。世界銀行資料顯示:全球網際網路普及率已從 2012 年的 34% 上升到了 2020 年的 60%[12]。假設搜尋量按比例增長,則預計其年均搜尋量將達 2.1 萬億次,與搜尋相關的收入將達約 1000 億美元 [13],平均每次搜尋的收入為 0.048 美元。
換句話說,2-Stage Search Summarizer 的查詢成本為 0.066 美元/次,約為每次查詢收入 0.048 美元的 1.4 倍。
- 通過以下最佳化,預估成本大約會降至原來的 1/4:1、量化(使用較低精度的資料類型);2、知識蒸餾(通過學習較大的模型去訓練一個較小的模型);3、訓練更小的「計算最佳化」模型,該模型具有相同的性能(稍後將對此展開更詳細的討論)
- 假設雲端運算的毛利率約為 50%,與依賴雲服務提供商相比,運行自建(內部)基礎設施(infrastructure in-house)會使成本降低至當前的 1/2。
綜合以上改進,降低至原有成本的 1/8 之後,在搜尋中融入高性能 LLM 的成本大約佔據當前查詢收入的 15%(現有的基礎設施成本除外)。(注:成本最低可降至 0.066 美元/次 * 1/4 * 1/2,約定於 0.008 美元,因此大約佔每次查詢收入 0.048 美元的 15%)
深度解析:雲端運算成本
如今,SOTA 大型語言模型通常會用到可比較的模型架構(最常見的是僅包含解碼器的 Transformer 模型),在推理過程中每個 token 的計算成本(以 FLOPs 為指標)約為 2N,其中 N 為模型參數數量(model parameter count)[14]。
目前,NVIDIA A100 是 AWS 最具成本效益的 GPU 選擇,若預定 1 年使用該 GPU,擁有 8 個 A100 的 AWS P4 實例的有效時薪(effective hourly rate)將達 19.22 美元。[15] 每個 A100 提供峰值 312 TFLOPS(萬億次浮點數/秒)FP16/FP32 混合精度吞吐量,這是 LLM 訓練和推理的關鍵指標 [16]。FP16/FP32 混合精度是指以 16 位格式(FP16)執行操作,而以 32 位格式(FP32)儲存資訊。由於 FP16 的開銷較低,混合精度不僅支持更高的 FLOPS 吞吐量,而且保持精確結果所需的數值穩定性也會保持不變 [17]。
假設模型的 FLOPS 利用率為 21.3%,與訓練期間的 GPT-3 保持一致(雖然最近越來越多的模型效率得以提升,但其 FLOPS 利用率對於低延遲推理而言仍充滿挑戰)[18]。因此,對於像 GPT-3 這樣擁有 1750 億參數的模型:

我們也應用了基於 GCP TPU v4 定價(GCP TPU v4 pricing)相同的計算方法,並得到了相似的結果 [19]:

預估 GPT-3 通過雲服務提供商 (AWS, GCP)每處理 1000 個 token 所需的推理成本
OpenAI 的 API 定價為 0.02 美元/1000 詞,但我們估計其成本約為 0.0035 美元/1000 詞,佔定價的 20% 左右。這就意味著:對於一臺一直運行的機器而言,其毛利率約為 80%。這一估算與我們之前設想的 75% 毛利率大致相同,進而為 ChatGPT Equivalent 和 2-Stage Search Summarizer 搜尋成本估算提供了合理性驗證(sanity check)。
04
訓練成本如何?
另一個熱門話題是 GPT-3(擁有 1750 億參數)或最新的 LLM(如擁有 2800 億參數的 Gopher 和擁有 5400 億參數的 PaLM)的訓練成本。基於參數數量和 token 數量,我們構建了一個用於估算計算成本的框架,雖然稍作修改,但同樣適用於此:
- 每個 token 的訓練成本通常約為 6N(而推理成本約為 2N),其中 N 是 LLM 的參數數量 [20]
- 假設在訓練過程中,模型的 FLOPS 利用率為 46.2%(而在之前的推理過程中,模型的 FLOPS 利用率約為 21.3%),與在 TPU v4 晶片上進行訓練的 PaLM 模型(擁有 5400 億參數)一致 [21]。
1750 億參數模型的 GPT-3 是在 3000 億 token 上進行訓練的。Google使用了 GCP TPU v4 晶片來訓練 PaLM 模型,若我們現在也像Google那樣做,那麼如今的訓練成本僅為 140 萬美元左右。

此外,我們還將該框架應用到一些更大的 LLM 模型中,以了解其訓練成本。

預估 LLM 在 GCP TPU v4 晶片上的訓練成本
05
繪製成本軌跡
的通用框架
為了推導 LLM 的推理成本/訓練成本,我們總結了如下框架:

密集激活純解碼器 LLM 模型 Transformer(Densely Activated Decoder-Only Transformer LLMs)的推理成本和訓練成本(其中「N」是模型參數數量,「processor」是指 TPU、GPU 或其他張量處理加速器)
因此,我們假設 LLM 的架構相似,那麼推理成本和訓練成本將根據上述變數的變化而變化。雖然我們會詳細考慮每個變數,但是以下部分才是關鍵點:
自 2020 年 GPT-3 發佈以來,使用與 GPT-3 一樣強大的模型進行訓練和推理的成本大大降低,低於先前的五分之一。

相比 2020 年推出的 GPT-3,與其性能對等的模型的推理與訓練成本降低情況總結
參數數量效率:巨型語言模型參數每年增長 10 倍的神話
考慮到過去 5 年中模型參數呈指數增長,我們普遍猜測:下一代 LLM 模型很可能是萬億參數(密集激活)模型:

LLM 中模型參數數量的增長
雖然 LLM 的參數數量每年約增長 10 倍,但是大多數模型訓練資料集的大小並沒有顯著變化:

所選 LLM 的模型參數數量與訓練 token 數量 (訓練計算最優大語言模型)
然而,最新文獻表明,假設計算資源和硬體利用率(即訓練「計算最優」模型)保持不變,關注擴展參數數量(scaling parameter count)並不是性能最大化的最佳方式:

Google DeepMind 的研究人員將一個參數函數(parametric function)擬合到他們的實驗結果中,發現參數數量 N 的增速應與訓練 token 數量 D 的增長速度大致相同,從而讓模型損失 L 實現最小化(即性能最大化):

模型損失的參數函數 (訓練計算最優大語言模型)
研究人員還訓練了一個名為 Chinchilla 的模型(擁有 700 億的參數)。雖然該模型的計算資源與 Gopher(擁有 2800 億參數)相同,但是該模型是在 1.4 萬億 token 上進行訓練的而非 3000 億 token。Chinchilla 的性能明顯優於擁有相同 FLOPs 預算的大型模型,從而證明了大多數 LLM 過度支出了計算量和對資料的渴望(譯者注:換言之,對大多數 LLM 來說,使用更多的資料來訓練比增大模型參數量要更加划算)。

通過訓練資料大小與模型參數來預測模型損失 (錯誤更少:Chinchilla 的自然環境含義)
雖然 Chinchilla 的參數(以及推理計算需求)比 GPT-3 少 60%,但是其性能遠遠優於擁有 1750 億參數的 GPT-3 模型。
實際上,即使我們用與 GPT-3 相同的 3000 億 token 資料集去訓練一個萬億參數模型,仍可以預見該模型的表現不如 Chinchilla:

萬億參數模型相應損失項的相對量級(0.03 的模型參數損失與 0.25 的訓練 token 損失)也表明,通過增加模型大小獲得的邊際效益低於增加資料量獲得的邊際效益。
展望未來,我們不會繼續擴大模型參數數量,而是將增量計算資源(incremental computational resources)轉移到質量相當的更大資料集上進行訓練,以獲得極佳的性能。
Cost/FLOP 效率
對於訓練 LLM 而言,最重要的硬體性能指標(hardware performance metric)是可實現的混合精度 FP16/FP32 FLOPS。改進硬體旨在實現成本最小化,同時使得峰值 FLOPS 吞吐量和模型 FLOPS 利用率實現最大化。
雖然這兩個部分在硬體開發中密不可分,但為了讓分析變得更簡單,本節重點關注吞吐量,下一節再討論利用率。

目前,我們已經通過查看雲實例定價(cloud instance pricing)估算了 Cost/FLOP 效率。為了進行下一步探究,我們估算了運行以下機器的成本。主要包括以下兩個方面:1)硬體購買(hardware purchase)2)能源支出(energy expense)。為說明這一點,我們再來看看 GPT-3(一款由 OpenAI 推出的模型,該模型在 Microsoft Azure 的 10000 個 V100 GPU 上訓練了 14.8 天)[22]:

2020 年用英偉達 V100 GPU 訓練 GPT-3 的成本 (碳排放與大型神經網路訓練)
黃仁勳定律(英偉達執行長黃仁勳於 2018 年提出)指出,在硬體成本方面,GPU 的增長速度比五年前快了 25 倍 [23]。在訓練 LLM 的背景下,GPU 的性能得到了很大提升,這很大程度上得益於張量核心(Tensor Cores)(AMD 採用的是矩陣核心(matrix cores))。此外,GPU 不再將向量作為計算原語,而是轉為矩陣,從而實現了性能更好、效率更高的混合精度計算。
2016 年,NVIDIA 通過 V100 資料中心 GPU 首次推出了張量核心。與最初引入的張量核心相比,雖然這一改進不太明顯,但是每一代張量核心都進一步提高了吞吐量。如今,對於用於訓練 LLM 的資料中心 GPU,我們仍能看到每一代 GPU 的吞吐量都提升了 50%(或者說年均吞吐量提升了 22% 左右)。

資料中心 GPU FP16/FP32 吞吐量/美元 (NVIDIA)

桌面 GPU 和資料中心 GPU、按精度劃分的吞吐量/美元 (英偉達,深度學習推理中的計算和能源消耗趨勢)
能源效率提升得更快。現在我們可以看到,用於訓練 LLM 的資料中心 GPU 的代際吞吐量/瓦特提高了 80%(或者說年均吞吐量提高了 34%):

資料中心 GPU FP16/FP32 吞吐量/瓦特 (英偉達)

按精度劃分的桌面和資料中心 GPU 吞吐量/瓦特(英偉達,深度學習推理中的計算和能耗趨勢)
僅從 V100(用於訓練 GPT-3)到即將推出的 H100 的改進來看,我們預計內部訓練成本將降低 58%(即訓練成本由 74.4 萬美元降低到 31.2 萬美元)。

目前使用英偉達 H100 GPU 訓練 GPT-3 的成本
展望未來,我們預測,隨著硬體設計的不斷創新,硬體成本和能效將逐步改進。例如,從 V100 到 A100 GPU,NVIDIA 添加了稀疏特性(sparsity features),這進一步將某些深度學習架構的吞吐量提高了 2 倍 [24]。NVIDIA 正在 H100 中添加對 FP8 資料類型的本地支持,當與推理量化等現有技術相結合時,可以進一步提高吞吐量 [25]。
此外,TPU 和其他專用晶片的出現從根本上重塑了深度學習用例的晶片架構。Google的 TPU 建立在脈動陣列結構(systolic array architecture)之上,可顯著減少暫存器使用,提高吞吐量 [26]。正如下一節將提到的,隨著我們將訓練和推理擴展到大型參數模型,最近許多硬體都著力於提高利用率。
硬體利用率提升
出於記憶體需求,LLM 訓練的主要挑戰之一就是將這些模型從單個晶片擴展到多個系統和集群級別。在典型的 LLM 訓練中,設置保存最佳化器狀態、梯度和參數所需的記憶體為 20N,其中 N 是模型參數數量 [27]。
因此,BERT-Large(2018 年早期的 LLM 之一,擁有 3.4 億參數)僅需 6.8GB 記憶體,就可輕鬆裝入單個桌面級 GPU。另一方面,對於像 GPT-3 這樣的 1750 億參數模型,記憶體要求轉換為 3.5TB。同時,NVIDIA 最新的資料中心 GPU(H100)僅包含 80GB 的高頻寬記憶體 (HBM),這表明至少需要 44 個 H100 才能滿足 GPT-3 的記憶體要求。[28] 此外,即使在 10000 個 V100 GPU 上訓練 GPT-3 也需要 14.8 天。
因此,即使我們增加用於訓練的晶片數量,FLOPS 利用率也仍然需要保持高水平,這一點至關重要。

硬體利用率的第一個維度是在單晶片層面。在單個 A100 GPU 上訓練 GPT-2 模型時,硬體利用率達 35.7%[29]。事實證明,片上記憶體(on-chip memory)和容量是硬體利用的瓶頸之一:處理器核心中的計算需要重複訪問 HBM,而頻寬不足會抑制吞吐量。同樣,有限的本地記憶體容量會迫使從延遲較高的 HBM 進行更頻繁的讀取,從而限制吞吐量 [30]。
硬體利用率的第二個維度與晶片到晶片的擴展有關。訓練像 GPT-3 這樣的 LLM 模型需要跨多個 GPU 對模型和資料進行劃分。正如片上儲存器的頻寬可能成為硬體利用的瓶頸一樣,晶片間互連的頻寬也可能成為硬體利用的限制因素。隨著 V100 的發佈,NVIDIA 的 NVLink 實現了每個 GPU 300GB/s 的頻寬。對於 A100 來說,寬頻速度實現了 600GB/s[31]。
硬體利用率的最後一個維度是系統到系統的擴展。一臺機器最多可容納 16 個 GPU,因此擴展到更多數量的 GPU 要求跨系統的互連不能成為性能瓶頸。為此,Nvidia 的 Infiniband HCA 在過去 3 年中將最大頻寬提高了 2 倍 [32]。
在第二和第三個維度上,軟體劃分策略是硬體有效利用的關鍵考慮因素。通過結合模型和資料並行技術,2022 年使用 MT-NLG 的 Nvidia 晶片集群級別的 LLM 訓練的模型 FLOPS 利用率達到了 30.2%[33],而使用 GPT-3 的模型 FLOPS 利用率在 2020 年只有 21.3%:

選擇 LLM 的模型 FLOPS 利用率(PaLM:使用路徑擴展語言建模)
TPU 等專用硬體實現了更高的效率。
Google 5400 億參數的 PaLM 模型在 TPU v4 晶片上實現了 46.2% 的模型 FLOPS 利用率,是 GPT-3 訓練利用率的 2.2 倍 [34]
FLOPS 利用率的提高得益於更高效的並行訓練(使用 Google 的 Pathways ML 系統)以及從根本上 TPU 具有完全不同的架構。該晶片的脈動陣列結構和每個核心的顯著的本地記憶體密度(local memory density)降低了高延遲全局記憶體(global memory)的讀取頻率。
同樣地,我們可以看到Cerebras、Graphcore和 SambaNova 等公司在處理器中分配了更多的共享記憶體容量。展望未來,我們預計其他新興創新,例如將晶片擴展到晶圓級以減少延遲/增加頻寬,或通過可程式設計單元最佳化資料訪問模式等將進一步推動硬體利用率的發展 [35]。
06
大型語言模型
即將迎來全盛時期
據《紐約時報》近日報道,Google宣稱 ChatGPT 是其搜尋業務的「紅色警報」(code red),它的搜尋量呈病毒式發展。
[36]從經濟角度來看,通過粗略估算,將高性能 LLM 納入搜尋將花費約 15% 的查詢收入,這表明該技術的部署已經切實可行。然而,Google的市場主導地位阻礙了它成為這方面的先行者:Google目前的搜尋收入為 1000 億美元,將高性能 LLM 納入搜尋會使Google的盈利能力減少一百多億美元。
另一方面,也就難怪微軟會計劃將大語言模型納入 Bing 了 [37]。儘管 LLM 支持的搜尋成本高於傳統搜尋,並且與Google相比,微軟搜尋引擎的市場份額要低得多,但是微軟並未虧損。因此,如果微軟能夠成功地從Google手中奪取搜尋市場份額,那麼即使現有查詢成本更高,微軟仍然能夠獲得極高的利潤。
有趣的是,對於其他產品,通過部署 LLM 已經可以通過 SaaS 來盈利。例如,最近估值為 15 億美元、使用 LLM 生成文案的 Jasper.ai 收費為 82 美元/100000 字(相當於 1.09 美元/1000 個 token)[38]。使用 OpenAI 的 Davinci API 定價為 0.02 美元/1000 個 token,即使我們對多個響應 (response) 進行取樣,毛利率也可能遠高於 75%。
同樣令人驚訝的是,如今在公有云中僅需約 140 萬美元即可對 GPT-3 進行訓練,而且即使是 SOTA 模型(如 PaLM,約 1120 萬美元)的訓練成本也不會太高。在過去的兩年半里,類似 GPT-3 等模型的訓練成本下降了 80% 以上,高性能大語言模型的訓練成本將進一步降低。
換句話說,訓練大語言模型並不便宜,但也沒那麼燒錢,訓練大語言模型需要大量的前期投入,但這些投入會逐年獲得回報。更近一步,Chinchilla 論文表明,在未來,相比資金,高質量資料會成為訓練 LLM 的新興稀缺資源之一,因為擴展模型參數數量帶來的回報是遞減的。
參考文獻(向上滑動閱覽)
Alphabet 2021 10K
Comparing Google and ChatGPT
Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google
Introducing YouChat – The AI Search Assistant that Lives in Your Search Engine
Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight
ChatGPT: Optimizing Langauge Models for Dialogue(實際上,ChatGPT 還在基礎 1750 億參數語言模型之上使用了 RLHF(Reinforcement Learning from Human Feedback,即從反饋中獲得強化學習)機制,但為了簡單起見,我們不考慮強化學習成本。)
Teaching language models to support answers with verified quotes
ChatGPT: Optimizing Langauge Models for Dialogue
OpenAI Pricing
Building Software Systems at Google and Lessons Learned
What』s New With Google Search
Our World in Data: Internet
Alphabet 2020 10K
Scaling Laws for Neural Language Models(對於 encoder-decoder 模型,推理 FLOPs 約為 N,而不是僅解碼器模型的 2N)
AWS EC2 P4 Instances
NVIDIA A100 Tensor Core GPU Architecture
Mixed precision training(針對 FP16/FP32 描述的所有內容也適用於 BF16/FP32 混合精度運算,這些運算在 A100 和其他處理器上具有類似的吞吐量)
PaLM: Scaling Langauge Modeling with Pathways
Cloud TPU pricing
Scaling Laws for Neural Language Models(對於 encoder-decoder 模型,訓練 FLOPS 約為 3N,而不是僅解碼器模型的 6N)
PaLM: Scaling Langauge Modeling with Pathways
Carbon Emissions and Large Neural Network Training
GTC 2018 Keynote with NVIDIA CEO Jensen Huang
NVIDIA A100 Tensor Core GPU Architecture
NVIDIA Hopper Architecture In-Depth
An in-depth look at Google』s first Tensor Processing Unit (TPU)
Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model(假設基於使用混合精度訓練的 Adam 最佳化器,每個參數佔用 20 位元組的記憶體)
NVIDIA Hopper Architecture In-Depth
State-of-the-Art Language Modeling Using Megatron on the NVIDIA A100 GPU
Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning
NVLink and NVSwitch
NVIDIA ConnectX InfiniBand Adapters
PaLM: Scaling Langauge Modeling with Pathways
PaLM: Scaling Langauge Modeling with Pathways
Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learning
Graphcore IPU Hardware Overview
SambaNova SN10 RDU at Hot Chips 33
A New Chat Bot is a 『Code Red』 for Google』s Search Business
Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google
Jasper.ai Pricing
*頭圖來源:視覺中國
(本文經授權後由 OneFlow 編譯發佈,譯文轉載請聯繫 OneFlow 獲得授權。原文地址:https://sunyan.substack.com/p/the-economics-of-large-language-models)