
Stability AI CTO Tom Mason 認為,AIGC 的下一波浪潮將是音視訊和 3D
整理 | 凌梓郡編輯| 鄭玄
整整一年,AI 繪畫的話題熱度不減。人們驚異於大模型做起了「畫師」,這讓 AIGC(AI 生成內容)成為了熱門的資本賽道。「下一波浪潮肯定是視訊、音訊和 3D 內容,」Stability AI 的 CTO Tom Mason 堅定地認為,他們目前正在全力研究生成視訊和音訊的相關模型。
將 AI 繪畫推向高潮的是 Stable Diffusion,一個前所未有的開源模型,對所有人開放、能夠又快又好地生成圖畫。它的誕生路徑也與眾不同:源於開源社區,而非大公司。它的主要推動者是 Stability AI。公司將自己作為社區的貢獻者之一,並希望探索出一條開源、AI 模型、社區共同前進的道路。
Stability AI 成立於 2019 年,不到三年已經成為估值超 10 億美元的獨角獸。Stability AI 專注於生成模型,認為它在未來會成為網際網路的重要組成部分。如果說上一代 AI 演算法帶來的是廣告推薦,那麼「生成式 AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力」。
今年的 IF 2023,極客公園邀請了 Stability AI 的 CTO(技術長)Tom Mason,他以自己的視角分享了 AIGC 從默默無聞到突然爆發的全過程,並對 AIGC 未來影響世界的方式給出了自己的預測。以下是他在大會上的分享實錄,經極客公園整理發佈。

(在極客公園創新大會 IF 2023 現場,極客公園創新業務總監 Ashley 對 Tom Mason 的訪談視訊進行解讀。)
01
開源是 Stability AI
的根基所在
極客公園:請簡單介紹一下,在來到 Stability AI 之前,你都有怎樣的經歷?
Tom Mason:我之前有 15 年的時間都在倫敦經營著一家科技公司,為大型汽車公司開發了很多不同的平臺,也為很多創業公司提供技術支持。在接觸 AI 和 Stability AI 之前,我從事過很多領域。
大概 2 年前,我開始和一個開源社區一起,開發一個叫做 Disco Diffusion 的 Python Notebook,用來生成動畫和圖像。那是一個很棒的社區,我和他們共事了好幾個月,一起打造了給非技術使用者使用的新工具。Python Notebook 和一個同時開發的產品,後來成為了 Dream Studio,通過這段經歷,我發現了 Stability AI,也就是現在我所在的公司。
極客公園:Stability AI 是一個怎樣的公司?
Tom Mason:Stability AI 非常堅持開源,某種程度上也是我們的根基所在。我們協助支持了大概 8 個開源社區,共計超過 10 萬名成員,他們專攻不同的模態,從語言到圖像、到音訊 、視訊和 3D。
我們會提供算力支持,並會資助一部分研究人員,我們擁有非常大的計算集群,現在我們在 AWS 上有 4000 個 A100 節點,在其他地方還有 1500 個節點。這些計算集群正在以非常快的速度增加,我們會將資源開放給研究員們,以便他們訓練模型,這些模型最終會開源。所以可以說 Stability AI 是一個基礎平臺,它的支柱其實是這些開源社區。
同時我們內部有團隊也會給他們提供支持,建設 HPC 超算、管理這些計算集群;資料團隊會提供資料上的幫助;跨職能團隊(負責)跨社區的一些協助工作。
另外我們還有一個非常大的基礎設施部門,他們的工作主要是開發 API 和產品。我們會通過平臺網站向全世界發佈 API 和我們自己打造的產品。
極客公園:開源為什麼至關重要?
Tom Mason:我因為開源 AI 技術開啟了這段旅程。於我而言,開源 AI 令人驚喜到難以置信。從我自己的家裡,我可以登陸開源社區,與一個包含了所有完整資訊的模型互動,並使用它做一些更酷的事,在它的基礎上創建工具,這就像一次飛躍。所有這些推進了人類歷史的進程,我們正生活在這樣一個無比奇妙的時刻。這些(開源)賜予人類的,讓我們能夠去創造更美好、更偉大的事業,我也真的非常榮幸能參與到這個進程裡,成為這個公司的一員,見證這個時刻的發生。
比如 Stable Diffusion 的發佈,我覺得開放一個如此大規模如此複雜的模型,並不是那麼一件容易想到、做到的事情,(但它真的發生了)並且帶來了創造力的爆發。
每天早上醒來,我都可以在網上看到 10 個不同的新項目,有很多人都在做一些了不起的事情,每一個小項目都有可能成為一家新公司,成為一個新的開源社區。
極客公園:Stability AI會成為像 OpenAI 一樣的機構嗎?
Tom Mason:Open AI 非常專注於 AGI(通用人工智慧)。但這絕對不是我們的目標,我們想建立好的生成模型。因為生成式 AI 很有可能會產生更大的影響力。目前已經有很多理論在討論它將如何實現,特別是通過語言模型和視訊模型,以及其他的帶有時序資訊的模型。
現在 AGI 不是我們關注的重點。我們只專注於構建不同模態的、好用的生成模型,用大型資料集支持這些模型的定製化,以及支持開源。這就是我們和 OpenAI 的主要區別。我們絕對百分百地致力於讓我們的模型開源,並將這項技術公開,讓全世界的人都可以不受任何限制地使用它。這絕對是一件非常重要的事情,因為這項技術是如此具有革命性。

Stable Diffusion 最新的版本公開|來源:stability AI 官網
02
AIGC 讓
消費者成為創作者
極客公園:AIGC 在這一年受到了前所未有的關注,在你看來,爆發前有哪些重要的時刻?
Tom Mason:我認為 AI 領域其中一個重要轉折點是 2017 年關於 Transformer 的論文,《Attention Is All You Need》發表。論文介紹了注意力機制的概念,這使得神經網路變得更加普及;緊接著,基於 Transformer 網路,圖像生成領域出現了很多研究,其中出現了擴散模型。最開始是 Latent Diffusion,現在有了 Stable Diffusion,它最初是由 CompVis 團隊開發的。
極客公園:在這個過程中,Stable Diffusion 是怎麼誕生的?
Tom Mason:接下來兩個重要的轉折點,分別是資料集和算力。我們支持的其中一個項目 LAION,就專注於收集和建立海量的資料集,他們現在有 50 億圖文匹配的多語種資料集,其中 20 億是有英文標註的圖片。
在這 20 億的基礎上,我們篩選出大約 10 億資料集用於 Stable Diffusion,資料集的工作開始於 2、3 年前,每年規模都在增長,資料集的規模是非常重要的。除了 LAION 以外,並沒有其他可用的資料集擁有這樣的規模。所以當 CompVis 團隊和 LAION 團隊開始合作,這個神經網路就誕生了。
第三個關鍵要素是算力的滿足,在這之前,學術研究人員,開源研究者們必須通過大學的網路,或者其他提供算力資源的公司,申請算力資源。而目前 Stability AI 擁有世界上第十或第十一大的自用的超算。我們將這些資源提供給有需要的開源研究員,所以他們現在有能力訓練世界上最大的模型,與任何其他公司相競爭。這對社區的幫助非常大。讓他們能夠有資源去做研究和開發,也因此帶來了現在發佈的這些超棒的模型,我相信這個趨勢還會增長。隨著來到 2023 年,這裡會涉及更多其他模態,比如視訊,模型會越來越大,資料集會越來越大,所以這個趨勢大概率會持續下去。

(Tom Mason 在 IF 2023 大會現場的分享。)
極客公園:今年,通過文字生成圖像非常引人注目,在這之後,內容生產領域還會有怎樣的變化?
Tom Mason:下一波浪潮肯定是視訊、音訊和 3D。語言模型和圖像模型的爆發和流行,實際上源於資料集的開放。我們能夠從網際網路上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。視訊模型已經開始出現,它們同樣依賴於大規模、有標註的整潔資料集,這樣模型才能進行高效的訓練。
這是我們現在主攻的領域,音訊也是類似的。我們有一個叫 Harmonai 的團隊,正在主攻文字和音訊。現階段通過訓練的模型輸出的結果已經非常出色,且是能夠通過文字輸入生成的,所以這是一個非常令人興奮的領域,我個人的熱情在於視訊和動畫,我在加入 Stability 之前就一直在做這方面的事情。
網際網路上並沒有足夠大量的視訊資料集和音訊資料集,這是我們的當務之急。我們應該會通過合作的形式來完成(資料集搭建)。語言模型和圖像模型的爆發和流行,實際上源於資料集的開放。我們能夠從網際網路上提取大量的文字,用它來訓練圖像模型。這其實是過去幾年,圖像和語言模型能夠爆發性發展的一個重要原因。
大量的視訊內容,是被大型電影公司和流媒體公司版權所有的,所以幫助那些公司使用他們的資料集,開發新的視訊模型,對我們來說很重要,這是我們的核心策略之一,就是讓資料變得更智慧,去更好地利用好那些大多時候沒有被妥善使用的大型資料集。
極客公園:視訊內容的生成的模型什麼時候會發布?
Tom Mason:毫無疑問是明年。我們現在已經有正在訓練的視訊模型了,我們也跟那些我前面提到的大資料集所有者建立了合作關係,我覺得模型的架構還需要最佳化,不過我們已經有了一些有趣的可選方案。
我非常期待明年年中,我們能夠做出一個不錯的視訊模型,當然是短視訊,然後慢慢向長視訊(發展),這可能需要用到多模型組合。同時,還要最佳化好場景融合和其他的相關技術。
我們的一個工具 Dream Studio,就是用來編輯和製作動畫的,我們其實正在研究動畫生成的 API,讓人們只用一張圖片就可以生成動畫,使用一種 2D 轉 3D 的深度估計方法。這是一個非常酷的技術,跟視訊擴散有一點區別,我們會在明年早些時候發佈,讓使用者體驗。視訊擴散則會在明年晚些時候發佈。
我非常期待有一天,我們能夠打造出動畫和視訊擴散(模型)的工具。3D 也是,明年會成為一個熱門領域。我們已經看到很多包含 NeRF(注:一種將 2D 圖像轉 3D 模型)的管線,允許我們創建 3D 模型和資產。通過文字管線、文生圖、2D 轉 3D,或者攝影作品裡的環境通過 NeRF 轉換成 3D 模型。這些管線目前(生成速度)還非常慢,但他們正在快速地提升效率。
極客公園:視訊、3D 的生產模型會給人們帶來怎樣的全新體驗?
Tom Mason:使用者應該很快就可以通過這些生成式管線,在 VR 或遊戲場景裡創建 3D 資產了。這會是一件很重要的事情,它幾乎會立刻讓你想到元宇宙。在裡面可以創建你自己的環境,玩家只要口述他們希望沉浸在什麼樣的遊戲資產或環境中就可以了。這會非常令人興奮。
我想我們中很多人都想象過。在 VR 裡,圍繞我們的整個環境都是(自動)生成的。玩家能夠完全掌控音樂、3D 資產和環境氛圍,這樣你就能完全掌控你的體驗。這與當下行業裡生成式 AI 取得的進展非常契合。生成式 AI 正在做的,就是讓消費者成為創作者,給他們創作他們自己消費的媒體內容的能力。它會是一個非常令人興奮的時刻。
極客公園:目前,生成 3D 內容有哪些挑戰?
Tom Mason:就當下的 3D(內容生成)而言,我覺得挑戰主要是生成的時間,以及解析度。這二者是相關聯的,NeRF 模型越精確,跑起來就越慢,如果考慮什麼是圖像模型最令人驚豔的進展,就是生成時間(縮短)。
一年前,生成一張高解析度的圖片可能會需要幾分鐘,2、3 分鐘或者 4 分鐘才能生成完成。但比如通過跑在我們 API 上的 Stable Diffusion,只需要差不多 2-3 秒的時間,所以在性能表現上有成數量級的進步。這也就是為什麼,這個模型可以如此成功,因為它足夠小,生成得可以足夠快。因此它能夠跑在本地的 GPU 上,同時速度也更快。
所以我們需要看到,在 3D 內容生成領域也需要有類似這樣的突破,通過一張照片生成一個還不錯的網格模型,現在大概需要 10 分鐘左右,對想要將其嵌入創作體驗的普通使用者來說太慢了,人們想要的是能夠快速響應的創作工具。
所以我覺得我們需要專注解決這個問題。
極客公園:那視訊生成模型的技術成熟度如何?
Tom Mason:我有信心它的進展會快很多。我們已經看到一些新的取樣技術和模型架構,能大大縮短推理時間。圖像模型構成了視訊模型的核心。某種程度上,視訊模型是在圖像模型基礎上增加了時序資訊,所以只要我們把圖像模型做得更小,那麼視訊模型也可以變得更高效,這是視訊領域研究比較明確的方向。
我覺得我們有挺大概率在明年年底實現視訊實時(生成)。我能看到視訊的圖像推理時間在明年很快就可以達到至少 1 秒 1 幀的速度,然後到年底的時候達到實時輸出的流暢度,3D 就會相對遙遠一些,這取決於技術的迭代情況。但毫無疑問,我們會與包括英偉達在內的很多公司,共同在 3D 內容生成領域持續堅定地投入。

Stability AI 官網
03
Stability AI
是社區的一員
極客公園:你提到 Stability AI堅持開源,支持了 8 個開源社區,開源社區的運作是怎樣的?
Tom Mason:我們開源社區的運作模式,與 Linux 以及其他大家熟悉的開源項目是類似的,唯才是用。通過 Git 管理(社區成員)對程式碼庫的貢獻,社區成員互相審核程式碼,一旦審核通過,就可以合併到主幹。
對於我們支持的開源社區,我們資助了一些能夠帶領社區的研究人員,這也使他們能夠全職地參與到項目裡。許多從事這些項目的人都是利用業餘時間做的,又或者是在攻讀大學學位或博士學位時做的。他們中的許多人即使想全職投入項目的工作,但現實也無法讓他們做到。我們資助了一些項目核心研究人員,讓他們能夠完全把精力投入到這個項目中。
當然,我們也是在非常確定這個人是對社區至關重要的情況下才這麼做。這些人要麼是在創造社區方面發揮了重要作用,要麼他們能夠將社員聚集在一起,總有一部分人在組織裡不可或缺,扮演著粘合劑的角色。對於這些人,我們會去盡力地支持他們。
極客公園:StabilityAI 在社區裡扮演怎樣的角色?
Tom Mason:我認為關鍵是,我們與社區裡的其他成員並無區別。作為一家企業,我們只是社區中的一員。我們並沒有掌控它,我們只是一個貢獻者。
我想我們所有人都是這樣認為的。除此之外,我們並不想扮演其他更多的角色。作為一家企業,我們只想以積極開放的方式做出貢獻,並推動生態的改善。我想大家都很認同這一點。並且我們也希望自己能做出更多積極的貢獻。
極客公園:你們希望自己的模型能夠影響 10 億人,這會怎樣發生?
Tom Mason:一個令人激動的事實是,我們正在用大量不同的語言來訓練模型。現在並沒有大規模的多語言生成模型,但多語言資料集出現後就不一樣了。
當下大家對於這項技術的認知並不多。我們看到模型覆蓋範圍的統計資料,它在全球的覆蓋範圍依然非常小。所以在未來的一兩年裡,我們將用不同的語言來訓練模型,並讓 Stable Diffusion 兼容更多語言。我們希望可以與全球的合作伙伴一起,對我們而言與不同國家的機構合作非常重要。我們可以一起用不同語言訓練這些模型。
這並不需要把技術重新開發一遍,這實際上是對現有程序的重新應用。既然我們擁有了這些架構,我們就應該快速地將它們推廣出去。我們希望將整個模型培訓的過程和知識都分享出去,讓各個國家的合作伙伴和供應商都能掌握。這樣,在未來 12 個月內,圖像生成或許在全球各地還會再一次掀起浪潮,視訊和音訊領域也是如此。10 億這個數字可能還遠遠不夠,但這是我們當前的目標。
*頭圖來源:視覺中國