今年大火的圖像合成方向已走過十年。
2022 年已經接近尾聲。深度學習模型在生成圖像方面的表現愈發出色,顯然,未來該模型還將繼續發展。今天的局面是如何一步步發展而來的呢?這得追溯到十年前,也就是當今所說的 「AI 之夏」 的起源。下文以時間軸的形式追溯了一些里程碑,從論文、架構、模型、資料集到實驗。
Hacker News 評論中有人指出,Hinton 等人的深度信念網早在 2006 年就被用於生成合成 MNIST 數字,參見深度信念網的快速學習演算法 。
Durk Kingma 讓我注意到變分自動編碼器 (VAEs) 稍微先於 GANs,參見自動編碼變分貝葉斯和這些早期結果在野外標記面部資料集。
@Merzmensch 在Twitter上強調了 DeepDream 的重要性,它可以被視為一種原始生成方法,對於圖像合成的藝術方面。參見 inception: 深入神經網路。
起源 (2012-2015)
一旦知道深度神經網路將徹底改變圖像分類,研究人員就開始朝著 「相反」 的方向探索:如果可以使用一些能有效分類的技術 (例如卷積層) 來製作圖像呢?

Hello world!這是 GAN 生成的人臉樣本,來自 Goodfellow 等人 2014 年的論文。該模型是在 Toronto Faces 資料集上訓練的,該資料集已從網路上刪除。
2012 年 12 月:「AI 之夏」 的開始。Hinton 等人撰寫的《ImageNet Classification with Deep Convolutional Neural Networks》一文發佈,他們第一次將深度卷積神經網路 (CNN)、GPU 和來自網際網路的大型資料集 (ImageNet) 結合在一起。

論文連結:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
2014 年 12 月:Ian Goodfellow 等人發表了《Generative Adversarial Nets》。GAN 是 2012 年之後第一個致力於圖像合成而非分析的現代神經網路架構。它引入了一種基於博弈論的獨特學習方法,其中兩個子網路 ——「生成器」 和 「鑑別器」 互相競爭。最終,只有 「生成器」 從系統中保留下來,用於圖像合成。

論文連結 https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf
2015 年 11 月:《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》發表,描述了第一個實際可用的 GAN 體系結構 (DCGAN),並且首次提出了潛在空間操縱的問題 —— 概念是否對映到潛在空間方向?

論文連結:https://arxiv.org/pdf/1511.06434.pdf
GAN 的五年(2015-2020)

Mario Klingenmann 所作《路人回憶 I》,2018 年。培根式的臉是這一領域 AI 藝術的典型,生成模型的非攝影現實主義是藝術探索的焦點。
GAN 可以應用於各種圖像處理任務,如風格遷移,圖像修復,去噪和超解析度。與此同時,GAN 的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品相繼出現。2018 年發生了第一樁 「人工智慧藝術」 醜聞 —— 三名法國學生借用一位美國 19 歲高中畢業學生開源的 AI 演算法創作的畫作在佳士得拍賣行拍得 43 萬美元。與此同時, transformer 架構徹底改變了 NLP,並且在不久的將來對圖像合成產生了重大影響。
2017 年 6 月:文章《Attention is all you need》發表。transformer 架構 (以 BERT 等預訓練模型的形式) 徹底改變了自然語言處理 (NLP) 領域。

論文連結:https://arxiv.org/pdf/1706.03762.pdf
2018 年 7 月:文章《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》發表。對於後來的 CLIP 和 DALL-E 這樣的模型來說,這篇文章和其他多模態資料集將變得至關重要。

論文連結:https://aclanthology.org/P18-1238.pdf

該面孔來自 thispersondoesnotexist.com 網站。2010 年代後期 GAN 架構的質量主要是在對齊的人臉圖像上進行評估,而對於更異構的資料集,其成功程度有限。因此,在學術 / 工業和藝術實驗中,人物面孔仍是重要參照依據。
2018 年 – 2020 年:NVIDIA 研究人員對 GAN 架構進行了一系列重要改進。GAN 生成的圖像第一次做到與自然圖像高度相似,至少對於像 Flickr-Faces-HQ (FFHQ) 這樣高度最佳化的資料集來說是如此。

論文連結:https://arxiv.org/pdf/1812.04948.pdf
2020 年 12 月:文章《Taming Transformers for High-Resolution Image Synthesis》發佈。Vision transformer (ViT) 表明,transformer 架構可以用於圖像。本文中提出的方法 ——VQGAN 取得了 SOTA 結果。

論文連結:https://arxiv.org/pdf/2012.09841.pdf
Transformer 時代(2020-2022)
Transformer 架構徹底變革了圖像合成的方式,GAN 的使用也逐漸開始減少。「多模態」深度學習鞏固了來自 NLP 和計算機視覺的技術,「prompt 工程」取代了模型訓練和微調,成為圖像合成的新興方法。
論文《Learning transferable visual models from natural language supervision》提出了 CLIP 架構,引入了多模態功能,推動了當前圖像合成的熱潮。

CLIP 是一種結合了視覺 transformer 和正則化 transformer 的多模態模型,學習圖像和文字描述的「共享潛在空間」。

論文連結:https://arxiv.org/pdf/2103.00020.pdf
2021 年 1 月,論文《Zero-shot text-to-image generation》發佈,其中提出了 DALL-E 的第一個版本。該模型的原理是在單個資料流中組合文字和圖像(被 VAE 壓縮為「token」),模型只是簡單地「續寫句子」。訓練資料(250M 圖像)包括來自 Wikipedia、Conceptual Captions 和 YFCM100M (http://projects.dfki.uni-kl.de/yfcc100m/) 的文字 – 圖像對。CLIP 為圖像合成的「多模態」方法奠定了基礎。

論文連結:https://arxiv.org/pdf/2102.12092.pdf
下圖是 DALL-E 2 模型的一個生成例子,文字描述是「一個金髮女人的肖像照片,用單反相機拍攝,中性背景,高解析度」。

2021 年 6 月,論文《Diffusion models beat GANs on image synthesis》發表。擴散模型引入了一種不同於 GAN 的圖像合成方法,從噪聲中重建圖像。

論文連結:https://arxiv.org/abs/2105.05233
2021 年 7 月,DALL-E mini (https://huggingface.co/spaces/dalle-mini/dalle-mini) 發佈,它是 DALL-E 的複製版本(比 DALL-E 更小,但對架構和資料的調整很少)。

2022 年 4 月,論文《Hierarchical text-conditional image generation with CLIP latents》提出了以 GLIDE 為基礎的 DALL-E 2。

論文連結:https://arxiv.org/pdf/2204.06125.pdf
2022 年 5 月,論文《Photorealistic text-to-image diffusion models with deep language understanding (https://arxiv.org/pdf/2205.11487.pdf)》提出了 Imagegen 和 Parti,這是Google對標 DALL-E 2 的兩個模型。
論文連結:https://arxiv.org/pdf/2206.10789.pdf
Photoshop 一般的人工智慧 (2022 至今)
雖然 DALL-E 2 為圖像模型設置了一個新的標準,但它的商業化限制了模型的創造性。雖然 DALL-E 2 已經發布,但大部分使用者仍在繼續使用 DALL-E mini。
而這一切隨著 Stable Diffusion 的發佈發生了改變,Stable Diffusion 標誌著圖像合成進入「Photoshop 時代」。
2022 年 8 月,Stability.ai 發佈了 Stable Diffusion,這個模型可以實現與 DALL-E 2 相同的照片真實感,最重要的是該模型公開可用,並且可以在 CoLab 和 Huggingface 平臺上運行。
下圖是 Stable Diffusion 生成的巴洛克風格的藝術畫作:

Google也不甘落後,也是在 2022 年 8 月,Google發佈了一種「個性化」的文字到圖像擴散模型 ——DreamBooth。

論文地址:https://arxiv.org/pdf/2208.12242.pdf
2022 年 10 月,全球最大圖片交易商 Shutterstock 宣佈與 OpenAI 合作,提供 / 授權生成圖像,預計圖片市場將受到 Stable Diffusion 等生成模型的嚴重影響。
原文連結:https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis