不要叫我程式設計師,我是「AI工程師」,馬斯克:開始卷自然語言程式設計

編輯:澤南、陳萍

未來十年需求最高的工作,是「AI 工程師」?

ChatGPT 出現後,人們預測「所有行業都要通過 AI 進行重塑」,有些工作會被代替,也有工作會改變形式。作為把 AI 造出來的程式設計師,他們的職業會變成什麼樣?

最近,事情看起來有了譜,一群工程師和學者喊出了「AI 工程師」的概念,獲得了眾多響應:

由於 GPT-4 等大語言模型展現出的通用化且強大的能力,我們的工作方式或許很快就會轉變成和 AI 協同工作,跟上人工智慧的步伐本身就是一項全職工作。

據說,這個「AI 工程師」處於全棧工程師和機器學習工程師之間,佔據後端工程師的一部分,專注於大模型的構建。現在它還處於定義階段,不過看大家熱烈討論的樣子,距離落地應該不遠了,畢竟 ChatGPT 革命的速度就是這麼快。

想法一出,AI 領域大 v 們迅速有了點評。OpenAI 科學家、前特斯拉 AI 和自動駕駛主管 Andrej Karpathy 表示贊同。「大模型創建了一個全新的抽象和專業層,到目前為止,我把它稱為『提示工程師』,但現在不止是提示的問題。」

另外他指出四個要點:

  • 過去的機器學習工作通常要從頭開始訓練演算法,而結果一般性能有限。

  • 大模型訓練與傳統機器學習有很大不同,前者系統工作量很大,進而分裂出一種新角色,專注於在超級計算機上對 Transformer 進行大規模訓練。

  • 從數字上看,AI 工程師的數量可能會比機器學習工程師 / 大模型工程師多得多。

  • 你無需接受任何訓練就可以成功擔任這一角色。

馬斯克看完以後也說了

馬斯克看完以後也說了:

馬斯克看完以後也說了

職位需求大,有重要意義且門檻低,看起來讓人既興奮又焦慮。

在討論中,也有人提出了「認知工程師」、「AI 系統工程師」等名稱作為候選,英偉達 AI 科學家 Jim Fan 認為這種新興的職業應該被稱為「無梯度工程師」—— 從傳統工具 1.0,到神經網路 2.0,再到無梯度架構的 3.0,我們終於等來了 GPT 系列自我訓練的 4.0 版本。

對此,威斯康星大學助理教授 Sebastian Raschka 表示,這僅適用於通用助理,對於大多數業務,你也不需要「通用」。

名稱和定義給了很多,讓我們看看這個「AI 工程師」到底是什麼樣的職位?

在基礎模型的突破性能力和開源大模型、API 的推動下,我們正在見證應用人工智慧十年一次的轉變。

在 2013 年需要花費五年時間和一個研究團隊才能完成的人工智慧任務,現在只需要 API、文件和 2023 年一個空閒的下午即可完成。

然而,細節決定成敗 —— 應用和產品化人工智慧的挑戰無窮無盡:

  • 模型上,有從最大的 GPT-4 和 Claude 模型,到開源的 Huggingface、LLaMA 和其他模型;

  • 工具上,從最流行的連結、檢索和向量搜尋工具(如 LangChain、LlamaIndex 和 Pinecone)到新興的自主代理領域(如 Auto-GPT 和 BabyAGI);

  • 技術上,每天新提交的論文、模型和技術的數量隨著興趣和資金的增加而呈指數級增長,以至於了解這一切幾乎已是一項全職工作。

若認真嚴肅地對待此種情況,這應該被認為是一份全職工作。因此,軟體工程將催生出一個新的子學科,專門研究人工智慧的應用並有效地運用新興的堆疊,就像「站點可靠性工程師」(SRE)、「開發運營工程師」、「資料工程師」和「分析工程師」的出現一樣。

這個角色的全新(也是最不令人敬畏的)版本似乎是:人工智慧工程師。

我們知道,每家創業公司都有某種討論 AI 使用的 Slack 頻道,很快這些渠道將從非正式團體轉變為正式團隊。目前,成千上萬的軟體工程師正致力於生產 AI API 和 OSS 模型,無論是在上班時間還是晚上和週末,在公司 Slacks 或獨立 Discords 中,這一切都將專業化並集中在一個頭銜上:AI 工程師。

這可能是未來十年需求最高的工程工作。

人工智慧工程師將隨處可見,從微軟和Google等科技巨頭,到 Figma、Vercel 和 Notion 這樣領先的初創公司,獨立開發者,如 Simon Willison、Pieter Levels 和 Riley Goodside。他們在 Anthropic 進行的工程實踐,每年可以賺取 30 萬美元,在 OpenAI 構建軟體,每年能賺取 90 萬美元。他們利用週末空閒時間在 AGI House 思考想法,並在 Reddit 的 /r/LocalLLaMA 專區上分享技巧。

他們的共同點是,幾乎可以在一夜之間就能把人工智慧的進步轉化為數百萬人使用的實際產品。而在其中,你看不到一個博士學位的頭銜。在交付人工智慧產品時,你需要的是工程師,而不是研究人員。

AI 工程師與 ML 工程師的大反轉

在 Indeed 網站上的一組資料表明,機器學習工程師的職位數量是 AI 工程師職位數量的 10 倍,但相比較而言,AI 領域的增長速率更快一些,有預測認為這種比例將在五年內發生反轉,即 AI 工程師將會是 ML 工程師的數倍。

HN Who’s Hiring(其是 Hacker News 上的一個月度帖子,它提供了一個平臺,供僱主發佈招聘資訊) 不同類別的月度就業趨勢

一直以來,關於 AI 和 ML 之間差異的爭論無休無止,但又小心謹慎。我們也很清楚,職位為普通的軟體工程師完全可以構建起 AI 軟體。然而,最近大家又在圍繞另一個問題展開討論,即在 Hacker News 的一個熱帖「如何進入 AI 工程」引起了大家的廣泛興趣,這則熱門帖子也說明了市場上仍然存在的基本限制原則,對每個職位的區分還是很細的。

Hacker News 上 2023 年 6 月一個帖子的截圖:「如何進入 AI 工程」的熱門投票答案。

直到現在,還有很多人認為 AI 工程是 ML 工程或資料工程的一種形式,所以當有人詢問如何進入某一領域時,他們傾向於推薦相同的先決條件,如在上面的回答中,很多人推薦了吳恩達(Andrew Ng)的 Coursera 課程。但那些高效的 AI 工程師中沒有一個人完成過吳恩達在 Coursera 上的課程,他們也不熟悉 PyTorch,也不知道資料湖(Data Lake)和資料倉儲(Data Warehouse)之間的區別。

在不久的將來,沒有人會建議通過閱讀 Transformer 的論文《Attention is All You Need》來開始學習 AI 工程,就像你不會通過閱讀福特 T 型車的設計圖紙來開始學習駕駛一樣。當然,理解基本原理和技術的歷史進展是有幫助的,它可以幫你找到提高思路和效率的方法。但有時你也可以通過使用產品,以實際經驗來了解它們的特性。

AI 工程師與 ML 工程師的反轉不會在一夜之間發生,對於擁有良好的資料科學和機器學習背景的人來說,Prompt 工程和 AI 工程可能會在很長一段時間內不被看好。然而,隨著時間的推移,需求和供應的經濟規律將會佔上風,人們對 AI 工程觀點也會改觀。

為什麼 AI 工程師會興起?

在模型層面,現在很多基礎模型是少樣本學習器,具有很強的上下文學習以及零樣本遷移能力,模型展現出來的性能往往超越了訓練模型的最初意圖。換句話說,創建這些模型的人並不完全知道模型的能力範圍。而那些非 LLM(大語言模型)專家的人可以通過與模型更多地互動,並將其應用於研究所低估的領域來發現和利用這些能力。

在人才層面,微軟、Google、Meta 以及大型基礎模型實驗室已經壟斷了稀缺的研究人才,他們提供了「AI 研究即服務」的 API。你可能無法僱傭這種研究人員,但你可以租用他們的服務。現在全球大約有 5000 名 LLM 研究人員、5000 萬名軟體工程師。這一供應限制決定了處於「中間」類別的 AI 工程師將會崛起,從而滿足人才需求。

硬體層面,各大科技公司、機構等大量囤積 GPU,當然,OpenAI、微軟是第一個這樣做的,但 Stability AI 通過強調他們的 4000 個 GPU 集群開啟了初創公司的 GPU 競爭戰。

此外,一些新的初創公司開始崛起,如 Inflection(13 億美元)、Mistral(1.13 億美元)、Reka(5800 萬美元)、Poolside(2600 萬美元)和 Contextual(2000 萬美元)已經普遍開始籌集鉅額種子輪融資,以擁有自己的硬體設施。

美國科技行業的高管和投資者 Nat Friedman 甚至宣佈了他們的 Andromeda 計劃,該計劃是一座價值 1 億美元、擁有 10 exaflop 計算能力的 GPU 集群,專門為其投資的初創公司提供支持。在 API 領域的另一側,將會有更多的 AI 工程師能夠使用模型,而不僅僅是訓練模型。

效率方面,與其要求資料科學家、機器學習工程師在訓練單個特定領域模型並投入生產之前進行繁瑣的資料收集工作,產品經理、軟體工程師可以通過與 LLM 進行互動,構建和驗證產品想法。

假設後者(資料、ML 工程師)的數量是前者(AI 工程師)的 100 到 1000 倍,而通過與 LLM 互動的工作方式會讓你比傳統的機器學習快 10 到 100 倍。因此,AI 工程師將能夠以比以往便宜 10000 倍的方式驗證 AI 產品。

軟體層面,會出現 Python 到 JavaScript 的變化。傳統上,資料和 AI 領域以 Python 為中心,而第一批 AI 工程工具(如 LangChain、LlamaIndex 和 Guardrails)也以 Python 為主。然而,JavaScript 開發者的數量至少應與 Python 開發者數量相當,因此現在的工具越來越多地向這個方向擴展,從 LangChain.js 和 Transformers.js 到 Vercel 的新 AI SDK。JavaScript 的市場總體規模的擴大和機遇是令人矚目的。

每當一個有著完全不同的背景、使用完全不同的語言、生產完全不同的產品、使用完全不同的工具的子群體出現時,他們最終會分裂成自己的群體。

程式碼在軟體 2.0 到軟體 3.0 演進中的作用

6 年前,Andrej Karpathy 撰寫了一篇非常有影響力的文章,描述了軟體 2.0,將精確建模邏輯的經典堆疊手寫程式語言與近似邏輯的機器學習神經網路的新堆疊進行對比。文章表明軟體能夠解決更多問題,而這些問題是人類無法建模的。

今年,Karpathy 繼續發表文章指出,最熱門的新程式語言是英語,因為生成式 AI 的提示可以理解為人類設計的程式碼,很多情況下是英語,並由 LLM 解釋,最終填補了他的圖表中的灰色區域。

注:軟體 1.0(Software 1.0)的經典堆疊是用 Python、C++ 等語言編寫的。軟體 2.0 是用神經網路權重編寫的,沒有人參與這段程式碼的編寫過程,因為權重有很多。

去年,Prompt Engineering 成為一個流行的話題,人們開始將 GPT-3 和 Stable Diffusion 應用於工作。人們嘲笑 AI 創業公司為 OpenAI 包裝器,並對 LLM 應用程序易受提示注入和反向提示工程的問題感到擔憂。

但 2023 年很重要的一個主題是關於重新確立人類編寫的程式碼的作用,從超過 2 億美元的巨頭 Langchain 到由英偉達支持的 Voyager,顯示出程式碼生成和重用的重要性。Prompt Engineering 既被過度炒作又具有永續性,但在軟體 3.0 應用程序中重新出現的軟體 1.0 正規化既是一個巨大的機遇,也為大量的創業公司創造了新的空間:

隨著人類工程師學會利用 AI,AI 越來越多地接手工程工作,未來,當我們回頭看時,分辨出兩者之間的區別已經很困難了。

參考內容:

https://www.latent.space/p/ai-engineer

https://twitter.com/karpathy/status/1674873002314563584

相關文章

當創業者開始用 ChatGPT 裁員

當創業者開始用 ChatGPT 裁員

他說,從沒想到科幻片的場景有一天會發生在自己身上。 作者 | 黎詩韻編輯| 衛詩婕 幾個月來,對話機器人 ChatGPT 展現出的能力令世界...

ChatGPT 的「神功」,是如何煉成的?

ChatGPT 的「神功」,是如何煉成的?

最強對話式 AI,站在巨人的肩膀上。 AIGC 在這幾個月成了一個大熱的話題。 頗有些風水輪流轉的感覺,如同年初大火特火的 web3 一樣,...