物理改變圖像生成:擴散模型啟發於熱力學,比它速度快10倍的挑戰者來自電動力學

豐色 蕭簫 發自 凹非寺

現在,圖像生成領域的半壁江山已經被物理學拿下了。

火出圈的DALL·E 2、Imagen和Stable Diffusion,它們共同基於的擴散模型——

都是受到物理熱力學的啟發誕生的。

不僅如此,來自MIT、收錄於NeurIPS 2022的一種比擴散模型效果還要好、速度還要快的新生成模型,則啟發於電動力學

如此攻勢,讓人不得不感嘆

如此攻勢,讓人不得不感嘆:

留給圖像生成的物理模型已經不多了?(手動狗頭)

熱力學如何啟發擴散模型?

雛形:從一滴墨水得到啟發

事實上,擴散模型並非從一開始就「嶄露頭角」。

很長一段時間裡,圖像生成領域的王者都非GAN莫屬,即便期間不少新模型提出,它的生成效果仍然吊打其他一眾模型。

初版擴散模型也是在這個背景下誕生。

就在GAN論文發佈的後一年,史丹佛大學博士後Jascha Sohl-Dickstein基於GAN「沒法學習完整概率分佈」的缺陷,想到了一個idea。

非平衡熱力學有鑽研的他,思考為何不能將物理和圖像生成結合起來?

非平衡熱力學是熱力學的一個分支,專門研究某些不處於熱力學平衡中的物理系統。

典型例子是一滴會在水中擴散的墨水。

在擴散之前,這滴墨水會是在水中的某個地方形成一個大斑點,但如果想模擬墨水開始擴散前的初始狀態概率分佈就會非常困難,因為這個分佈很複雜、導致很難取樣。

但隨著墨水擴散到水中、水逐漸變成淡藍色,墨水分子將分佈得更簡單更均勻,我們就可以很輕鬆地用數學公式來描述其中的概率。

這時候,非平衡熱力學就上場了,它能將墨水擴散過程中每一步的概率分佈都描述出來:

由於擴散過程的每一步都可逆,所以只要「步子」足夠小,就可以從簡單的分佈再推斷出最初複雜的分佈來。

就像是將這個過程倒放

Jascha Sohl-Dickstein就是受這個擴散原理的啟發,創建了「擴散模型」,具體分為兩步。

首先,通過某種演算法將複雜圖像轉化為簡單的噪聲。

這一過程就類似於一滴墨水擴散到水全部變藍,然後再逆轉這一過程,將噪聲轉化為新圖像。

具體來說,當系統拿到一張訓練圖像,這張圖像的百萬像素中的每一個點都有相應的值,根據這些值就能將像素轉變為百萬維空間中的一個點。

隨後,用演算法在每個時間步長中向每個像素點添加一些噪聲,相當於墨水的每一步擴散,這樣每個像素的值與其原始圖像中的值之間的關係就會越來越小,直到看起來更像是一個簡單的噪聲分佈。

接下來,對資料集中的所有圖像執行這一操作,百萬維空間中一開始由各個點組成的複雜分佈(無法輕易描述和取樣),就會變成圍繞原點組成的簡單正態分佈。

Jascha Sohl-Dickstein解釋道:

這個非常緩慢的「前向」轉換過程就好比將資料分佈變成了一個巨大的「噪音球」,提供了一個可以輕鬆取樣的分佈。

然後,再用這些被演算法轉換的圖像,訓練得到最終的擴散模型。

具體來說,就是餵給神經網路從前向轉換過程中獲得的噪聲圖像,訓練它預測之前一步得到的噪聲較小的圖像,在這期間不斷調整參數、改善模型,最終,它就可以將噪聲圖像輸出成我們想要的圖像。

這樣訓練好的神經網路,無需學習原始圖像,就可以直接取樣生成全新的圖像。

2015年,Sohl Dickstein將這個擴散模型的雛形進行了發表。

遺憾的是,儘管它能夠對整個分佈進行取樣,也不會只吐出圖像資料集的「子集」,但能力還遠遠落於GAN——既表現在生成質量上,也表現在生成速度上。

改進:造就DALL·E2、Stable Diffusio等爆火模型

最終,是兩位博士生的相繼改變,造就了最終的「現代版」擴散模型。

首先是2019年,還在史丹佛大學讀博士的Yang Song,和他的導師在完全不知道Sohl Dickstein成果的情況下,想出了一種類似的新方法。

相比Sohl Dickstein估計資料(即高維表面)的概率分佈的做法,Yang Song估計的是分佈的梯度(即高維表面的斜率)。

而通過先用不斷增加的噪聲水平干擾訓練集中的每個圖像,然後再讓神經網路使用分佈梯度預測原始圖像,可以非常有效地去噪,最終生成質量很高的圖像。

不過,這種方法的取樣速度非常慢。

好在很快,2020年,UC柏克萊的Jonathan Ho看到了這兩項研究,意識到後者的思路可以用來重新設計和改進Sohl Dickstein最開始的那版雛形。

於是,就有了後來大名鼎鼎的DDPM(Denoising Diffusion Probabilistic Models)——它在所有的任務中,要麼打平、要麼超過所有其他生成模型,包括統治了該領域多年的GAN。

至此,一個最初啟發於物理學原理的機器學習模型,幾經週轉,最終掀起了AIGC領域的熱潮——

我們現在看到的DALL·E2、Stable Diffusio、SD和Imagen……都是基於DDPM這一擴散模型改進而來。

MIT新電動力學圖像生成模型

現在,又是「拜物理學所賜」,擴散模型也迎來了新的挑戰者。

基於電動力學的啟發,來自MIT的研究人員提出了一種新的「泊松流」生成模型PFGM(「Poisson Flow」 Generative Models)。

具體來說,這個生成模型將資料看成空間中新增z=0平面上的電荷,電荷產生了空間中的電場。

其中,電荷產生的電場線對應資料取樣過程,電場線的方向即空間中泊松方程的解的梯度。

代表資料的電荷沿著產生的電場線向外移動,最終會形成一個半球面,並在球面半徑足夠大時,電荷在半球面上均勻分佈。

與擴散模型中每一步概率分佈都是可逆的一樣,電場線也是可逆的。

因此,可以利用這種效果訓練模型,讓它學會通過均勻分佈在半球面上的資料,反過來生成z=0平面上的資料。例如下圖這個例子,資料分佈一開始呈愛心狀,但當資料最終移動到半徑足夠大的半球面上時,它們會呈現出均勻分佈狀態:

對應到圖像生成過程中也一樣,z=0平面上的資料分佈,是我們希望生成的圖像。

而生成模型要做的,則是通過半球面上均勻分佈的資料,來反向推出希望生成的圖像:

在CIFAR-10資料集上的評估中,PFGM是在一眾類似思路模型中表現最好的,超過了擴散模型。

而且,PFGM在與擴散模型生成質量差不多的同時,速度要快上10~20倍,在速度和生成質量上取得了更好的「兼顧」。

下圖是PFGM基於不同資料集訓練後生成圖片的過程,效果確實也是很能打了:

猜猜下一個挑戰圖像生成領域的物理模型會是什麼?

參考連結:

[1]https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/

[2]https://arxiv.org/abs/2209.11178

[3]https://arxiv.org/pdf/1503.03585.pdf

相關文章