10年研究積累,推動圖像合成進入「PS」時代

今年大火的圖像合成方向已走過十年。

2022 年已經接近尾聲。深度學習模型在生成圖像方面的表現愈發出色,顯然,未來該模型還將繼續發展。今天的局面是如何一步步發展而來的呢?這得追溯到十年前,也就是當今所說的 「AI 之夏」 的起源。下文以時間軸的形式追溯了一些里程碑,從論文、架構、模型、資料集到實驗。

Hacker News 評論中有人指出,Hinton 等人的深度信念網早在 2006 年就被用於生成合成 MNIST 數字,參見深度信念網的快速學習演算法 。

Durk Kingma 讓我注意到變分自動編碼器 (VAEs) 稍微先於 GANs,參見自動編碼變分貝葉斯和這些早期結果在野外標記面部資料集。

@Merzmensch 在Twitter上強調了 DeepDream 的重要性,它可以被視為一種原始生成方法,對於圖像合成的藝術方面。參見 inception: 深入神經網路。

起源 (2012-2015)

一旦知道深度神經網路將徹底改變圖像分類,研究人員就開始朝著 「相反」 的方向探索:如果可以使用一些能有效分類的技術 (例如卷積層) 來製作圖像呢?

Hello world!這是 GAN 生成的人臉樣本,來自 Goodfellow 等人 2014 年的論文。該模型是在 Toronto Faces 資料集上訓練的,該資料集已從網路上刪除。

2012 年 12 月:「AI 之夏」 的開始。Hinton 等人撰寫的《ImageNet Classification with Deep Convolutional Neural Networks》一文發佈,他們第一次將深度卷積神經網路 (CNN)、GPU 和來自網際網路的大型資料集 (ImageNet) 結合在一起。

論文連結:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

2014 年 12 月:Ian Goodfellow 等人發表了《Generative Adversarial Nets》。GAN 是 2012 年之後第一個致力於圖像合成而非分析的現代神經網路架構。它引入了一種基於博弈論的獨特學習方法,其中兩個子網路 ——「生成器」 和 「鑑別器」 互相競爭。最終,只有 「生成器」 從系統中保留下來,用於圖像合成。

論文連結 https://proceedings.neurips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

2015 年 11 月:《Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks》發表,描述了第一個實際可用的 GAN 體系結構 (DCGAN),並且首次提出了潛在空間操縱的問題 —— 概念是否對映到潛在空間方向?

論文連結:https://arxiv.org/pdf/1511.06434.pdf

GAN 的五年(2015-2020)

GAN 的五年(2015-2020)

Mario Klingenmann 所作《路人回憶 I》,2018 年。培根式的臉是這一領域 AI 藝術的典型,生成模型的非攝影現實主義是藝術探索的焦點。

GAN 可以應用於各種圖像處理任務,如風格遷移,圖像修復,去噪和超解析度。與此同時,GAN 的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品相繼出現。2018 年發生了第一樁 「人工智慧藝術」 醜聞 —— 三名法國學生借用一位美國 19 歲高中畢業學生開源的 AI 演算法創作的畫作在佳士得拍賣行拍得 43 萬美元。與此同時, transformer 架構徹底改變了 NLP,並且在不久的將來對圖像合成產生了重大影響。

2017 年 6 月:文章《Attention is all you need》發表。transformer 架構 (以 BERT 等預訓練模型的形式) 徹底改變了自然語言處理 (NLP) 領域。

論文連結:https://arxiv.org/pdf/1706.03762.pdf

2018 年 7 月:文章《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》發表。對於後來的 CLIP 和 DALL-E 這樣的模型來說,這篇文章和其他多模態資料集將變得至關重要。

論文連結:https://aclanthology.org/P18-1238.pdf

該面孔來自 thispersondoesnotexist.com 網站。2010 年代後期 GAN 架構的質量主要是在對齊的人臉圖像上進行評估,而對於更異構的資料集,其成功程度有限。因此,在學術 / 工業和藝術實驗中,人物面孔仍是重要參照依據。

2018 年 – 2020 年:NVIDIA 研究人員對 GAN 架構進行了一系列重要改進。GAN 生成的圖像第一次做到與自然圖像高度相似,至少對於像 Flickr-Faces-HQ (FFHQ) 這樣高度最佳化的資料集來說是如此。

論文連結:https://arxiv.org/pdf/1812.04948.pdf

2020 年 12 月:文章《Taming Transformers for High-Resolution Image Synthesis》發佈。Vision transformer (ViT) 表明,transformer 架構可以用於圖像。本文中提出的方法 ——VQGAN 取得了 SOTA 結果。

論文連結:https://arxiv.org/pdf/2012.09841.pdf

Transformer 時代(2020-2022)

Transformer 架構徹底變革了圖像合成的方式,GAN 的使用也逐漸開始減少。「多模態」深度學習鞏固了來自 NLP 和計算機視覺的技術,「prompt 工程」取代了模型訓練和微調,成為圖像合成的新興方法。

論文《Learning transferable visual models from natural language supervision》提出了 CLIP 架構,引入了多模態功能,推動了當前圖像合成的熱潮。

CLIP 是一種結合了視覺 transformer 和正則化 transformer 的多模態模型,學習圖像和文字描述的「共享潛在空間」。

論文連結:https://arxiv.org/pdf/2103.00020.pdf

2021 年 1 月,論文《Zero-shot text-to-image generation》發佈,其中提出了 DALL-E 的第一個版本。該模型的原理是在單個資料流中組合文字和圖像(被 VAE 壓縮為「token」),模型只是簡單地「續寫句子」。訓練資料(250M 圖像)包括來自 Wikipedia、Conceptual Captions 和 YFCM100M (http://projects.dfki.uni-kl.de/yfcc100m/) 的文字 – 圖像對。CLIP 為圖像合成的「多模態」方法奠定了基礎。

論文連結:https://arxiv.org/pdf/2102.12092.pdf

下圖是 DALL-E 2 模型的一個生成例子,文字描述是「一個金髮女人的肖像照片,用單反相機拍攝,中性背景,高解析度」。

2021 年 6 月,論文《Diffusion models beat GANs on image synthesis》發表。擴散模型引入了一種不同於 GAN 的圖像合成方法,從噪聲中重建圖像。

論文連結:https://arxiv.org/abs/2105.05233

2021 年 7 月,DALL-E mini (https://huggingface.co/spaces/dalle-mini/dalle-mini) 發佈,它是 DALL-E 的複製版本(比 DALL-E 更小,但對架構和資料的調整很少)。

2022 年 4 月,論文《Hierarchical text-conditional image generation with CLIP latents》提出了以 GLIDE 為基礎的 DALL-E 2。

論文連結:https://arxiv.org/pdf/2204.06125.pdf

2022 年 5 月,論文《Photorealistic text-to-image diffusion models with deep language understanding (https://arxiv.org/pdf/2205.11487.pdf)》提出了 Imagegen 和 Parti,這是Google對標 DALL-E 2 的兩個模型。

論文連結:https://arxiv.org/pdf/2206.10789.pdf

Photoshop 一般的人工智慧 (2022 至今)

雖然 DALL-E 2 為圖像模型設置了一個新的標準,但它的商業化限制了模型的創造性。雖然 DALL-E 2 已經發布,但大部分使用者仍在繼續使用 DALL-E mini。

而這一切隨著 Stable Diffusion 的發佈發生了改變,Stable Diffusion 標誌著圖像合成進入「Photoshop 時代」。

2022 年 8 月,Stability.ai 發佈了 Stable Diffusion,這個模型可以實現與 DALL-E 2 相同的照片真實感,最重要的是該模型公開可用,並且可以在 CoLab 和 Huggingface 平臺上運行。

下圖是 Stable Diffusion 生成的巴洛克風格的藝術畫作:

Google也不甘落後,也是在 2022 年 8 月,Google發佈了一種「個性化」的文字到圖像擴散模型 ——DreamBooth。

論文地址:https://arxiv.org/pdf/2208.12242.pdf

2022 年 10 月,全球最大圖片交易商 Shutterstock 宣佈與 OpenAI 合作,提供 / 授權生成圖像,預計圖片市場將受到 Stable Diffusion 等生成模型的嚴重影響。

原文連結:https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis

相關文章

蔚小理走到了命運的「岔路口」

蔚小理走到了命運的「岔路口」

當新能源汽車的資格賽進入衝刺階段,競爭的焦點也發生了變化。 作者 | 周永亮編輯| 鄭玄 近日,隨著小鵬財報發佈,蔚小理都交出了 2022 ...

矽谷都在裁員,奈飛卻在增長

矽谷都在裁員,奈飛卻在增長

2022 年低開高走的奈飛,在年底交出了一份驚豔的答卷。 作者 | 賴求華編輯| 鄭玄 2022 下半年,過去 20 年最寒冷的冬天籠罩矽谷...

2023,元宇宙「脫虛向實」

2023,元宇宙「脫虛向實」

在希望與爭議中,元宇宙渡過了關鍵的一年。 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於...

建設 Web3,現在最需要 Web2 的移民?

建設 Web3,現在最需要 Web2 的移民?

Web3 處在「大規模應用」爆發的前夜 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於前...

B 站最艱難的時刻過去了嗎?

B 站最艱難的時刻過去了嗎?

儘管還在虧損,但 B 站的降本已經開始收穫成效。 作者 | 鄭玄 當一個行業整體意識到必須改變時,相似的關鍵詞就會反覆出現在高管對外的分享中...