Stable Diffusion火到被藝術家集體舉報,網友科普背後機制被LeCun點贊

白交 發自 凹非寺
量子位 | 公眾號 QbitAI

免費開源的Stable Diffusion太火了!

有人拿它來做視訊短片,幾分鐘內穿越時間看遍地球萬物的演變。

還有人拿它來製作守望先鋒裡的英雄。

甚至因為使用過於氾濫,牽涉到藝術版權的問題,一群藝術家們還吵了起來,並把一個非官方賬號舉報到封號。

這背後究竟是如何運作的,才能形成如此驚人的反響?

這幾天,有位小哥分享了Stable Diffusion工作機制的執行緒,還被LeCun點了贊。

來看看究竟說了啥

來看看究竟說了啥。

又是擴散模型

首先,從名字Stable Diffusion就可以看出,這個主要採用的擴散模型(Diffusion Model)

簡單來說,擴散模型就是去噪自編碼器的連續應用,逐步生成圖像的過程。

一般所言的擴散,是反覆在圖像中添加小的、隨機的噪聲。而擴散模型則與這個過程相反——將噪聲生成高畫質圖像。訓練的神經網路通常為U-net。

不過因為模型是直接在像素空間運行,導致擴散模型的訓練、計算成本十分昂貴。

基於這樣的背景下,Stable Diffusion主要分兩步進行。

首先,使用編碼器將圖像x壓縮為較低維的潛在空間表示z(x)。

其中上下文(Context)y,即輸入的文字提示,用來指導x的去噪。

它與時間步長t一起,以簡單連接和交叉兩種方式,注入到潛在空間表示中去。

隨後在z(x)基礎上進行擴散與去噪。換言之, 就是模型並不直接在圖像上進行計算,從而減少了訓練時間、效果更好。

值得一提的是,Stable DIffusion的上下文機制非常靈活,y不光可以是圖像標籤,就是蒙版圖像、場景分割、空間佈局,也能夠相應完成。

霸佔GitHub熱榜第一

這個平臺一開源,就始終霸佔GitHub熱榜第一,目前已累計2.9k星。

它是由慕尼黑大學機器視覺與學習研究小組和Runway的研究人員,基於CVPR2022的一篇論文《High-Resolution Image Synthesis with Latent Diffusion Models》,並與其他社區團隊合作開發的一款開源模型。

據官方介紹,它能在幾秒內在消費級CPU上運行創作,也無需進行任何預處理和後處理。

核心資料集是LAION-5B的一個子集,它是專為基於CLIP的新模型而創建。

同時,它也是首個在4000個A100 Ezra-1 AI超大集群上進行訓練的文字轉圖像模型。

不管怎麼說,在文字生成圖像這一趴,又多了一位實力強勁的明星了。(狗頭)

GitHub連結:

https://github.com/CompVis/latent-diffusion

參考連結:

[1]https://twitter.com/ai__pub/status/1561362542487695360

[2]https://stability.ai/blog/stable-diffusion-announcement

[3]https://arxiv.org/abs/2112.10752

相關文章

臉部辨識遭到美國波士頓政府禁用

臉部辨識遭到美國波士頓政府禁用

郭一璞 發自 凹非寺量子位 報道 | 公眾號 QbitAI 舊金山之後,美國又有一座大城市禁用臉部辨識了。這次,是哈佛、MIT等知名高校的所...

黃仁勳從烤箱裡取出新鮮出爐的GPU

黃仁勳從烤箱裡取出新鮮出爐的GPU

深黑的皮衣,蒼白的頭髮,熟悉的Jensen Huang又來了,但是少了寬敞的會場和粉絲的尖叫。 因為美國疫情的原因,英偉達和其他科技公司一樣...