Stability AI 創始人:大模型不應該只屬於巨頭

OpenAI 不夠「Open」,Stability 確實很「穩」。

作者 | 凌梓郡編輯| 靖宇

追溯 ChatGPT 引發的 AI 軍備競賽,可以回到去年 7 月,圖像生成模型 Stability Diffusion 開源(下文稱 SD)。這個在 Open AI 的繪畫模型 DALL- E2 之後發佈的模型,因其源程式碼開源,且對公眾開放使用,在當時吸引了最多關注和討論。(使用 DALL-E2 需要申請,通過率很低)

模型背後的公司 Stability AI 創始人 Emad Mostaque,一位在英國長大的印度裔,當時可能沒有意識到,自己按下了 AI「重啟」的加速鍵。

SD 的大熱,影響了 Open AI 隨後的決策:管理層決定推遲一直在研究的 GPT-4,快速上線普通使用者可用,界面友好的 ChatGPT。

這帶來了之後所有人都熟知的故事——ChatGPT 創下了 2 個月訪問使用者破億的紀錄,開啟了微軟和Google之間的巨頭間之戰,標誌了 AI 大模型時代的來臨。

前不久,馬斯克批評 Open AI 背離了開源、非盈利的初衷,這也是 Open AI 一直以來的爭議。關於如何管理和運作大模型,也是 Stability AI 與 Open AI 的關鍵區別之一。

Emad Mostaque 認為,大模型需要更多監督,而非在大公司內部運作,社區系統的開放性也至關重要。

他今年 39 歲,此前主要的職業生涯是一位對沖基金分析師,也是一位自閉症孩子父親。他會一些 AI 技術,但是認為自己更常做的事是「機制設計」,將不同的模式的圖景融合在一起。他不喜歡巨頭控制流量演算法的遊戲規則——這背後是對人們的操縱,甚至找紀錄片《社交困境》(The Social Dilemma)裡的所有前員工們聊過天。

Emad Mostaque|來源:Stability AI

「作為一家企業,我們只是社區的一員」,公司的 CTO 在之前的 IF 2023 的分享中表示。Stability AI 也將堅持模型開源,讓世界各地的人都能夠觸及最新的技術。

在支持開源社區上,Stability AI 前不久和 Hugging Face 等幾個初創公司一起資助了研究社區 Eleuther AI。在 2022 年,Stability AI 曾為該組織捐贈過雲端運算資源。捐贈的資源來自另一家科技巨頭亞馬遜。

Stability AI 與其簽訂協議,獲得了超過 4000 個英偉達 A100。在此之前,計算資源基本上來自創始人自套腰包購買的 32 個 GPU。

而據路透社報道,Stability AI 可能正在以 40 億美元的估值尋求下一輪估值。上一輪融資後,公司以 10 億美元估值成為新晉獨角獸。

從已存在的收費模式來看,Stability AI 與 Open AI 基本類似,通過 API 收費,或者向個人使用者收費提供增值服務。此外,Stability AI 將聚焦於創意產業,為內容生產公司定製專屬模型。公司已經和印度的投資機構 Eros Investments(愛神投資)成立了合資企業,後者擁有 1.2 萬部的電影資料庫。

在巨頭佈局大模型的時代,Stability AI 的探索路徑無疑值得關注。這篇文章是他去年 11 月和 10 月兩次播客採訪的整合編譯,分別來自 Weight&Biases 和 Hard Fork。在創立 Stability AI 之前,他有AI 製藥、科技公益等不同領域的經驗,這無疑影響到他對技術該如何被創造、如何被使用的思考。

01

在新冠項目中

接觸到大模型

我在牛津大學開始了數學和電腦科學的職業生涯。在 Gap Year 期間,我是一個企業開發人員。之後做了多年的對沖基金管理,我曾是 AI 和視訊遊戲的大型投資方。後來兒子被診斷出患有自閉症時,我休息了一下,用 AI 做藥物發現。分析神經遞質的生物分子通路,回顧文獻,重新使用藥物以幫助改善一些症狀;我同時向一些對沖基金和其他政府提供關於 AI 和技術、地緣政治的建議等。

我大約是在 12 年前開始這段經歷的。幾年前,我是 CAIAC 的首席設計師之一,這個名為「集體和增強智慧應對新冠肺炎」(Collective and Augmented Intelligence Against COVID-19)的項目於 2020 年 7 月在史丹佛大學啟動,旨在獲取世界上的冠狀病毒疾病知識,利用 AI 對其進行壓縮,使其變得有用。那是我第一次真正接觸到這些新模型。

我當時就想,「天啊,這太重要了。它們正變得足夠好、足夠快,而且很快就變得足夠便宜,可以抵達任何地方。」還有,「所有這些如此強大的技術都將被大公司所控制,而他們相信自己的優勢就是如此,這合理嗎?」不是,讓我們向前走。

我有一些 AI 和其他方面的經驗,不過大多數時候,我所做的是看到大的圖景和模式,把它們放在一起,有點像機制設計。

02

Stability AI 的成立

三年前,我們就有了 Stability AI 的想法。我和聯合創始人做的第一件事是參加了 Global XPRIZE for Learning(注:用科技手段幫助貧窮兒童學會讀寫、計算的公益項目),有 1500 萬美元的獎金,獎勵第一款可以在沒有網際網路條件下教讀寫和計算的應用程序。

我們把平板電腦部署到難民營,「如果我們用 AI 讓它更好、更強大,會發生什麼?」我們還沒有使用 AI,但我們剛剛完成了隨機對照試驗,在 13 個月的教育中,每天教難民營中的難民一小時讀寫和計算。

在兩年前,我們恰逢其時地建立了 Stability AI,來開展聯合國支持的 AI 領域 2019 冠狀病毒疾病工作,結果陷入了許多官僚主義和其它問題。

最初,我們幫助支持 Eleuther 和 LAION 等社區。我的想法是,這就像是 Web3 道瓊斯指數。比如「讓我們獎勵所有的社區成員,讓他們團結起來」。但是大約一個月之後,我們意識到商業開源軟體的規模和服務才是解決問題的方法。

當我在資助整個開源藝術空間的時候,我認為至少在明年能接近現在看到的質量。我認為這是(由於)知識壓縮的速度,使用的容易度,以及能夠連接到一些人的設備。這讓我很吃驚,我以為至少還要再過幾年我們才能到達那裡。

Stable Diffusion 是第一個足夠好,足夠快,足夠便宜,任何人都可以運行的模型。這就像一個 2G 的檔案,有來自 10 萬 G 的資料。我覺得就是這個瘋狂的東西讓它大規模爆炸,這是主要的催化劑。

Stability 基本建立在這樣一種信念之上,我們擁有的這些新模型——這些基於 Transformer 的模型、以及類似的模型——對於釋放人類在我們所見過的某些最強大的技術中的潛力至關重要,將它們開源、以便人們可以在其基礎上進行開發和使用,相信這不僅是一個偉大的商業模式,而且對於縮小數字鴻溝和儘可能推廣這些技術至關重要。

Stability AI的官方使命是建立基礎來激活人類的潛力,座右銘是「讓人們更快樂」。我們基本上催化了開源 AI 模型的構建,然後我們採用這些模型,為客戶擴展和定製它們。

03

Stability AI 可以開源大模型,而 Big Tech 不能

我們有 100 名員工,社區有 10 萬人。這就是我們力量的來源,我們來自世界各地。我們還給他們收入分成,這很奇怪。我們給他們好處,因為我們嘗試把他們當作藝術家。

我和紀錄片《社交困境》(《The Social Dilemma》)裡的所有人聊過天。從大型科技公司的角度來看,大型科技公司之所以建造圓形監獄,是因為他們無能為力,他們別無選擇。我們現在給了它一個選擇。我們現在在和大型科技公司合作,給他們一個出口,讓他們成為這件事的一部分。我們有點像瑞士,每個人都可以作為中立方參與進來。

尤其是工程師,想讓事情變得自由和開放,但同時有監管,有信任和安全的部分。我們得到了關於這個問題的指導和意見,來找一個中庸之道,因為它不能是極端純粹的自由主義,而另一個極端是沒有人擁有任何東西。

The Social Dilemma 海報

我認為擁有的這些因素會幫助我們做到這一點。通過風險投資,我們按照自己的條件籌集資金,所以有完全的獨立性。而不像 OpenAI,他們從微軟那裡籌集了 10 億美元,而微軟擁有技術的獨家許可。不一致的激勵是很難對抗的。我們希望社區、我們的團隊和我們的位置能夠幫助我們平衡這一點,對我們來說,處於這個位置是一件好事,沒有其他人真正佔據這個位置。

同樣,我們正在與監管機構積極談判。公眾的角色是社區和延伸。所以我們釋放了 Stability Diffusion,然後就有點瘋狂了。1000 個項目如雨後春筍般出現。

社區就會說,stability AI 為什麼不介入並協調,並有一個官方代言人? 我們說,好吧。所以我們進去了,把 Reddit 變成了官方的 Reddit。他們說,你怎麼敢?(真是)公司霸主。

我們只是想讓事情變得更有條理。然後我們不得不把它還回去。總是有這種推推搡搡的關係。我認為社區優先,但不能是直接民主。我們會犯錯誤,我們會做正確的事情,我們會受到越來越多的審查,因為我們所做的事情實際上是至關重要的。

大型科技公司處於不令人羨慕的位置,因為他們不能發佈它來做公關。它就像來自神的普羅米修斯之火——這是下一代的交流,這是瘋狂的——它可以用來燒燬東西。它可以用來激活人性之光。但是我們尋找如何處理的唯一辦法就是一起努力。這就是為什麼我想要與大型科技公司合作,想要與小型科技公司合作,想要與監管機構合作,想要與每個人合作,試圖找出正確的方法。

04

計算資源是公共利益

現在我們有很多控制權,因為我們是最快的計算機供應商。我們正在局部努力的就是讓研究者能夠使用自己的計算機,同時刺激一些國家集群更加開放。不再需要 6 到 12 個月來獲得 A100 或 H100 訪問許可權。

我認為,它應該更加多樣化一點。各方都在桌上,而不是集中。這是我們有意採取的行動,目的是從倫理和道德角度,逐步實現越來越多的分散式終端。從商業的角度來看,這對我們也有用。

如果我們被認為掌控了一切,我們就不知道那裡會發生什麼。協調整個社區需要付出很大的努力,但可能不會是積極的。假設如我們預期的那樣,一億、十億人參與進來,協調所有部分需要很多工作。相反,它應該是一個獨立的實體,所有的聲音可以從那裡被聽見。

我們也有自己的角色。我們從計算機的主要提供者,變成了計算機的提供者。希望全世界所有計算機都能被提供出來,更高效地做這件事。因為這是一項公共利益(public good)。這對我們有好處,因為它節省了我們的成本,開源模型的創建不需要我們付出任何代價。

對我們來說,成為第一層基礎設施層是有意義的,然後開始運作,建立一個業務模型來擴展它。

05

基於基礎模型,社區可以分叉

(團隊分歧)發生在 Stable Diffusion 釋放之後。人們說,「這可以用於不安全的工作,我們不覺得舒服,在 Stability 內部支持它。」

作為一個團隊,我們進行了討論,決定不再通過 Stability AI 發佈任何工作起來不安全的模型。有些人對此很不滿意。大多數人都能接受,但這更容易,因為這是一個團隊的決定。

在社區的基礎上,這屬於治理結構。我們正在研究 EleutherAI,我們想把它轉化成一個獨立的社區,因為它有很多不同的實體和很多不同的觀點。這是一個剛剛開始的治理結構。但是我們需要讓它具有適應性,因為我們不確定這些東西會去哪裡。

目前,Stability AI 對 GPU 訪問、以及類似的資源有很大的控制。今後不應該出現這種情況,因為任何一個實體ーー無論是我們、 OpenAI、 DeepMind 還是其他實體ーー都不應該控制這項技術,因為這是共同利益。

我們想成為獨立非盈利組織的貢獻者,而不是控制這項技術,然後在支持和促進開源方面發揮作用。我認為最終會發生的是,如果人們真的不同意,他們就分叉。我們在各個社區都看到過。這就是開源的魅力所在。

你可以分叉模型。我認為關鍵是基準模型。這是個很大的前期計算,然後微調和運行需要相對較少的計算。這與 Google 或 Facebook 當前的模式正好相反,將其轉化為資料庫結構的計算相對較少,大部分計算都是在推理時完成的。這是整個正規化的顛覆,但這不是社區分叉。

社區分叉是關於工作安全或不安全的分歧,如資料集、「爬蟲或許可」或類似的東西。我想圍繞著一些關鍵問題,會有不同的社區。

Stability AI 官網

Stability AI 官網

06

防止巨頭使用

大模型操縱人們

大型模才是問題所在。我們應該對此有更多的監督,以防某些 AI 組合的事物正確、卻危險。

想象一下,蘋果、亞馬遜、Google將情感文字到語言(emotional text-to-speech)整合到他們的模型中。Siri 突然有了一個非常誘人的聲音,並且悄悄告訴你應該買東西。你可能會買更多。這會受到監管嗎?現在還沒有,也不會及時。

將這些模型公之於眾會讓人們思考,「實際上,這可能是應該受到監管的東西。」如果有些東西是被規範的,那也沒關係,因為這是一個民主的過程。

那些利用這種技術來操縱我們的公司ーー準確講,就是廣告模式ーー我認為這是不合適的。人們明白這項技術,意味著人們將更加挑剔的策劃輸出,然後它將是檢測技術的混合產物。這是一個複雜的辯論,基本上不能在舊金山做出決定。這很重要,因為世界上不可避免地存在著技術。

如果你真的戳人,說「不想讓印度人使用這項技術」,他們會說,「我們當然想!」「什麼時候?」「當安全的時候」「誰決定的?」「我們做的」「所以他們不夠聰明,不能做出決定?」「不,他們需要接受教育。」然後情況變得很糟糕,對吧?同樣,我認為這是可以理解的,因為它既可怕又冷酷的。

07

Stability AI 的商業模式:

提供定製模型

這些模型ーー以及它們運行所依賴的資料,幾乎可以做任何事情。如果你將不同的玩家聚合起來,以實現質量,並且開源版本,價值在哪裡呢?如果模型可以做任何事情,那麼它的價值就不可能存在於模型中,價值肯定在別處。規模化可以讓我做到這一點,我們有 API,以及 DreamStudio.AI,這是我們自己的執行版本。(注:DreamStudio 是一個讓所有人直接使用 SD 模型的使用者界面,前 500 張圖像生成免費,後續可以充值)

(追問:所以每次有人通過你的 API 創建一個圖像,你就能從中抽成?)是的,或者通過 Dream Studio,我們有不錯的分成。第二部分是服務,很少有人能建立這些模型,但是世界上每個內容提供商都想擁有他們自己的模型版本。你想要一個 Hello Kitty 的模型,或者你想要一個寶萊塢的模型。

基本上其價值在於將 Hello Kitty 作為一項業務進入市場,並將其資產轉化為互動資產。它可以用於元宇宙,可以用於新體驗,也可以用於任何地方。然後開發工具,使他們能夠訪問自己的模型,讓其他人能夠訪問自己的模型,並向世界各地輸送這些工具。作為一個企業,我們的主要工作基本上是滿足大公司的需求,然後通過我們開發的軟體幫助其他人。比如 DreamStudio Lite 只是一個非常基本的軟體。DreamStudio Pro 是一個功能齊全的動畫套件,具有故事板、微調功能,以及創建自己的模型等功能。

DreamStudio AI 充值界面

DreamStudio AI 充值界面

我們會和大型內容庫(合作)。我們稱之為多元宇宙,因為我們認為每個人都應該有自己的模型。所以我們在那裡嵌入團隊,為他們創建模型,並分享好處。你有服務合同,所有這些合同都圍繞著它,因為它們現在是一個專業化的事情。

我認為這就是可持續發展的優勢所在:內容和經驗的混合,以及內容。舉個例子:我們和印度寶萊塢的 Eros(注:印度電影公司)做了筆交易,也就是印度的 Netflix,每天有 2 億活躍使用者。

你可以擁有豐富的生成式的未來,每個人都可以個性化和語境化這些東西。整個媒體空間都將是生成輔助的。我不認為它能取代,它增強了。從商業的角度來看,媒體是目前為止最有利可圖的,它可以為很多其他的東西提供資金。

我認為這是一個合理的模式,迪斯尼和派拉蒙最終不得不改變他們的全部檔案。就像 VHS 到 DVD 的提升一樣,因為你知道做這些模型有多難。我們只是想,「什麼可以是最有利於社區和吸引資產?」這就是媒體對我們的意義。

08

通過社區,去中心化決策

如果你是任何一個社區的活躍成員:從用於音樂的 Harmony AI,到用於語言模型的 Eleuther,再到用於圖像的 LAION,你有很大幾率用這種方式得到計算資源。可以是一個 A100 到 五百個 A100,取決於你的東西有多好,尤其如果你把社區的成員作為你的團隊。這是最主要的方法。

我們正在建立一個撥款入口網站,正在與某些大學合作,也在理清應該怎樣做,可能類似「Google Colab」(注:Google Research 提供的一項雲服務,讓任何人都可以通過瀏覽器編寫和執行任意 Python 程式碼),允許人們從第一天開始解鎖事情。

這也符合我們項目的下一階段。我們資助了一些博士,他們是社區的活躍成員。我們計劃 2023 年資助 100 位,還將為實驗室和項目提供專用的計算支持。有一個獨立的董事會負責做出決定,因為我們的業務和更廣泛的業務之間總是存在矛盾。

我們為什麼要資助 OpenBioML,(注:一個機器學習和生物學交叉的開放、合作研究實驗室)因為它很有用。目前沒有業務邏輯。我們希望保持支持整個生態系統的組合,這樣我們在其中有一個很好的位置,然後關注一些商業方面的東西,目前是生成性媒體。

我們正在做的基本是,假設你創建了沒有廣告激勵的 Facebook 和 Twitter,你也在加速使用工具來平衡這一點?

我們信任社區,信任這種去中心化,而不是集中化的協調,即這些決定是分開做出的。這些演算法都被鎖起來了,無法詢問。它們是不可理解的。它並不完美,你可以質疑資料集,可以質疑模型,你可以質疑 Stable Diffusion 的程式碼以及其他事情。再次強調,我們相信這是一種公共利益和公共權利(public good and public right)。我們看到它一直在從偏見、信任和安全方面得到改善。在大公司裡,動機不是公共利益。

我們想開放討論。所以我們剛剛宣佈了一個 20 萬美元的獎金,獎勵最好的開源 Deepfake 檢測器。我們花了 10 倍於我們在圖像生成模型上的算力,在圖像識別模型上,它將被用來識別不良的,非法的和其他內容。所以這就是我們採取的方法,信任人們,信任社區,而不是讓一個集中的、未經選舉的實體控制世界上最強大的技術。

我相信這是表達自由的終極工具之一。我相信言論應該是自由的。我認為這就是力量所在。力量在於多樣性。

09

技術的未來:

讓人更好地表達和交流

對我們來說,最簡單的溝通方式就是用語言交談。接下來就是互相寫郵件或聊天。要寫出一篇真正優秀的作品是非常困難的。最困難的事情是作為一個物種進行視覺交流。這就是為什麼藝術家是偉大的。我們都使用過幻燈片,也被困在那裡。有了語言模型、視覺模型、語言生成模型和程式碼模型的組合,你就不再需要 PowerPoint 了。你每次都可以說話同時製作漂亮的幻燈片。

人類現在終於可以通過文字和語言模型進行交流了ーー你已經看到 Copy.ai、 Sudowwrite 和 Jasper 等軟體是如何讓這種交流變得更容易的ーー現在還可以通過視覺進行交流。下一步就是 3D。這是人類交流方式的一個巨大變化。

之前的網路迭代都是關於 AI 被用來定位廣告。現在是關於別的東西,正在從消費轉向創造。我的注意力一直集中在這個領域,作為主要驅動力。

就影響力和全球性事物而言,在人類水平上,結構化和非結構化資料化之間動態切換的能力,是一件非常重要的事。因為當它與檢索增強、以及其他檢查事實準確性的東西相結合時,能夠理解原則,意味著你可以寫報告,做法律事務,你可以擺脫官僚制度。

這是第一項能夠實現這麼多東西的技術,它是如此通用,以至於不確定它的價值在哪裡。但是,我確實看到了任何人能夠更好地表達自己和交流的價值。

Stability AI 發佈的3D 生成軟體 Blender|來源:公司官網

10

開放有危險,但好處大於壞處

我們擁有許多工具,比如攝影和其他。如果你用 Photoshop 創建了一個受版權保護的實體,然後賣掉它,那是你的錯。這些工具本身什麼也做不了。你輸入一個 2G 的檔案,然後它創建一個輸出。所以我們必須回溯到回最初的人類本性。

它現在所做的是打開了訪問,就像印刷機打開了訪問一樣。現在任何人都有視覺創造力。就像我為七歲的女兒做的第一個版本,因為她說:爸爸,我想創作,這很有趣。這是繪畫,看看你在做的所有東西。她創作了一件很棒的作品,叫做「快樂的年夜」,以 3500 美元的價格出售,作為印度 COVID 救濟的 NFT,她把所有的錢都捐了出去。我心想,天哪,這可是件大事。我說,你為什麼不多做點呢 ? 她又做了八件。她說,爸爸,一個人的獨特價值只會隨著行業的發展而上升。所以她打算支付自己的大學學費。

不管怎樣,這項技術正在興起。我們看到了這一點,於是說,好吧,我們有責任盡最大努力指導這件事,後讓其他人進入這個房間。我認為,分開進行,你永遠不知道會是什麼樣子。但是當有人打破時,他們可能會從不太好的角度打破它。我對此非常害怕。因為這項技術正被用於非常邪惡的方面。

然而我認為,好處遠遠超過壞處,因為沒有什麼比創造更重要的了。我們現在處於一個消費社會。如果你看看藝術療法(art therapy)的作用,看看周圍的事物,伴隨著創造、以及人們使用這項技術而產生的快樂,我們為什麼要把它與世界隔絕?誰是自認決定這一點?我認為這是錯誤的。這是對手段的封鎖。

任何形式邪惡的可能性,意味著我們不能擁有任何東西。最好的是當我們一起變得更強大時,作為一個社群來打擊邪惡,推動善良。

參考連結:

1.https://wandb.ai/wandb_fc/gradient-dissent/reports/Emad-Mostaque-Stable-Diffusion-Stability-AI-and-What-s-Next–VmlldzoyOTQ0ODk3

2.https://www.nytimes.com/2022/10/21/podcasts/generative-ai-is-here-who-should-control-it.html

*頭圖來源:Stability AI

相關文章

建設 Web3,現在最需要 Web2 的移民?

建設 Web3,現在最需要 Web2 的移民?

Web3 處在「大規模應用」爆發的前夜 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於前...

2023,元宇宙「脫虛向實」

2023,元宇宙「脫虛向實」

在希望與爭議中,元宇宙渡過了關鍵的一年。 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於...