Hinton、DALL-E 2 皆上榜,盤點 AI 圖像 10 年合成史!

整理 | 劉春霖 責編 | 張紅月

現在,已是2022年底。

深度學習模型在生成圖像上的表現已經非常出色。

很顯然,未來還會給我們更多的驚喜。

這十年來,是如何走到今天這一步的?

在下面的時間線裡,將會追溯一些里程碑式的時刻,例如 AI 圖像合成的論文、架構、模型、資料集、實驗登場的時候。

一切,都要從十年前的那個人工智慧夏天說起。

開端( 2012 年 – 2015 年)

在深度神經網路面世之後,人們則意識到:它將徹底改變圖像分類。同時,研究人員開始探索「相反」的方向,「如果使用一些對分類非常有效的技術(例如卷積層)來製作圖像,會發生什麼?」

2012 年 12 月,「人工智慧之夏」誕生的開始。

在這一年,論文《深度卷積神經網路的 ImageNet 分類》發佈。論文作者之一,就是 AI 三巨頭之一的 Hinton。

這是第一次將深度卷積神經網路 (CNN)、GPU 和巨大的網際網路來源資料集(ImageNet)結合在一起。

2014 年 12 月,Ian Goodfellow 等大佬發表了史詩性論文鉅作《生成式對抗網路》。

GAN 是第一個致力於圖像合成而不是分析的現代(即2012年後)神經網路架構。

它引入了一種基於博弈論的獨特學習方法,其中兩個子網路「生成器」和「鑑別器」進行競爭。

最終,只有「生成器」從系統中保留下來,並用於圖像合成。

Hello World!來自 Goodfellow 等人 2014 年論文的 GAN 生成人臉樣本。該模型是 在Toronto Faces 資料集上訓練的,該資料集已從網路上刪除。

2015 年 11 月,具有重大意義的論文《使用深度卷積生成對抗網路進行無監督代表學習》發表。其中,作者描述了第一個實際可用的 GAN 架構 (DCGAN)。

這篇論文首次提出了潛在空間操縱的問題——概念是否對映到潛在空間方向?

GAN 的五年( 2015 年 – 2020 年)

這五年內 GAN 被應用於各種圖像處理任務,例如樣式轉換、修復、去噪和超解析度。期間,GAN 架構的論文開始爆炸式井噴。

地址:https://github.com/nightrome/really-awesome-gan

與此同時,GAN 的藝術實驗開始興起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出現。

第一個「AI 藝術」醜聞發生在 2018 年。

在 2018 年 10 月 25 日,Christie’s 的一場拍賣會上,正在拍賣 Edmond Belamy 的肖像,這是一副金色框架中的畫布,展示了看起來像 18 世紀紳士的汙跡人物。當拍賣槌落下時,也將標誌著人工智慧藝術在世界拍賣舞臺上的到來。

同時,Transformer 架構徹底改變了 NLP。在不久的將來,這件事會對圖像合成產生重大影響。

2017 年 6 月,《Attention Is All You Need》論文發佈。

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》中有詳實的解釋。

自此,Transformer 架構(以BERT等預訓練模型的形式)徹底改變了自然語言處理 (NLP) 領域。

2018 年 7 月,《概念性標註:用於自動圖像字幕的清理、上位化、圖像替代文字資料集》論文發表。

這個和其他多模態資料集對於 CLIP 和 DALL-E 等模型將變得極其重要。

MarioKlingenmann,MemoriesofPasserbyI,2018.Thebaconesquefaces是該地區AI藝術的典型代表,其中生成模型的非寫實性是藝術探索的重點

2018-20年,NVIDIA 的研究人員對 GAN 架構進行了一系列徹底改進。在《使用有限資料訓練生成對抗網路》論文中,介紹了最新的 StyleGAN2-ada。

GAN 生成的圖像首次變得與自然圖像無法區分,至少對於像 Flickr-Faces-HQ (FFHQ) 等這樣高度最佳化的資料集來說是這樣。

2020 年 5 月,論文《語言模型是小樣本學習者》發表。OpenAI 的 LLM Generative Pre-trained Transformer 3(GPT-3)展示了變壓器架構的強大功能。

2020 年 12 月,論文《用於高解析度圖像合成的 Taming transformers》發表。ViT 表明,Transformer 架構可用於圖像。

論文中介紹的方法 VQGAN 在基準測試中產生了 SOTA 結果。

2010 年代後期的 GAN 架構的質量主要根據對齊的面部圖像進行評估,對於更多異構資料集的效果很有限。因此,在學術/工業和藝術實驗中,人臉仍然是一個重要的參考點。

Transformer 的時代( 2020 年 – 2022 年)

Transformer 架構的出現,徹底改變了圖像合成的歷史。從此,圖像合成領域開始拋下 GAN。「多模態」深度學習整合了 NLP 和計算機視覺的技術,「即時工程」取代了模型訓練和調整,成為圖像合成的藝術方法。

《從自然語言監督中學習可遷移視覺模型》論文中提出了 CLIP 架構。可以說,當前的圖像合成熱潮,是由 CLIP 首次引入的多模態功能推動的。

2021 年 1 月,論文《零樣本文字到圖像生成》發表(另請參閱OpenAI 的部落格文章),其中介紹了 DALL-E 的第一個版本。

此版本的工作原理是通過將文字和圖像(由 VAE 壓縮為「TOKEN」)組合在單個資料流中。該模型只是「continues」和「sentence」。資料(250M 圖像)包括來自維基百科的文字圖像對、概念說明和 YFCM100M 的過濾子集。CLIP 為圖像合成的「多模態」方法奠定了基礎。

2021 年 1 月,論文《從自然語言監督學習可遷移視覺模型》發表。論文中介紹了 CLIP,這是一種結合了 ViT 和普通 Transformer 的多模態模型。

CLIP 會學習圖像和標題的「共享潛在空間」,因此可以標記圖像。模型在論文附錄A.1中列出的大量資料集上進行培訓。

2021 年 6 月,論文《擴散模型的發佈在圖像合成方面擊敗了 GAN》發表。

擴散模型引入了一種不同於 GAN 方法的圖像合成方法。研究者通過從人工添加的噪聲(「去噪」)中重建圖像來學習。它們與變分自動編碼器 (VAE) 相關。

「金髮女郎的人像照片,用數碼單反相機拍攝,中性背景,高解析度」,使用 DALL-E 2 生成。基於 Transformer 的生成模型與後來的 GAN 架構(如 StyleGAN 2)的照片級真實感相匹配,但允許創建廣泛的各種主題和圖案。

2021 年 7 月,DALL-E mini 發佈。

這是 DALL-E 的複製品(體積更小,對架構和資料的調整很少)。資料包括 Conceptual 12M、Conceptual Captions 以及 OpenAI 用於原始 DALL-E 模型的 YFCM100M 相同過濾子集。因為沒有任何內容過濾器或 API 限制,DALL-E mini 為創造性探索提供了巨大的潛力,並導致Twitter上「奇怪的 DALL-E」圖像呈爆炸式增長。

2021-2022 年,Katherine Crowson 發佈了一系列 CoLab 筆記,探索製作 CLIP 引導生成模型的方法。例如 512×512 CLIP-guided diffusion 和 VQGAN-CLIP(Open domain image generation and editing with natural language guidance,僅在 2022 年作為預印本發佈,但 VQGAN 發佈後就出現了公共實驗)。

就像在早期的 GAN 時代一樣,藝術家和開發者以非常有限的手段對現有架構進行重大改進,然後由公司簡化,最後由 wombo.ai 等「初創公司」商業化。

2022 年 4 月,論文《具有 CLIP 潛能的分層文字條件圖像生成》發表。本論文介紹了 DALL-E 2,它建立在僅幾周前發佈的 GLIDE 論文(《 GLIDE:使用文字引導擴散模型實現逼真圖像生成和編輯》的基礎上。

同時,由於DALL-E2的訪問受限和有意限制,人們對DALL-Emini重新產生了興趣。

根據模型卡,資料由「公開可用資源和我們許可的資源的組合」組成,以及根據該論文的完整 CLIP 和 DALL-E 資料集。

2022 年 5-6 月,5 月發佈論文《具有深度語言理解的真實感文字到圖像擴散模型》。

6 月論文《用於內容豐富的文字到圖像生成的縮放自迴歸模型》發表。

這兩篇論文中介紹了 Imagegen 和Parti ,以及Google對 DALL-E 2 的回答。

「你知道我今天為什麼阻止你嗎?」 由DALL-E 2 生成,「prompt engineering」從此成為藝術圖像合成的主要方法。

AI Photoshop( 2022 年至今)

雖然 DALL-E 2 為圖像模型設定了新標準,但它迅速商業化,也意味著在使用上從一開始就受到限制。使用者仍繼續嘗試 DALL-E mini 等較小的模型。

隨著 Stable Diffusion 的發佈,所有這一切都發生了變化。這可以說,Stable Diffusion 標誌著圖像合成「Photoshop時代」的開始。

「有四串葡萄的靜物,試圖創造出像古代畫家 Zeuxis Juan El Labrador Fernandez,1636 年,馬德里普拉多的葡萄一樣栩栩如生的葡萄」,Stable Diffusion 產生的六種變化。

2022 年 8 月,Stability.ai 發佈了 Stable Diffusion 模型。在論文《具有潛在擴散模型的高解析度圖像合成》中,Stability.ai 隆重推出了 Stable Diffusion,這個模型可以實現與 DALL-E 2 同等的照片級真實感。

除了 DALL-E 2,該模型幾乎可以立即向公眾開放,並且可以在 CoLab 和 Huggingface 平臺上運行。

2022 年 8 月,Google發表論文《DreamBooth:為主題驅動生成微調文字到圖像擴散模型》。DreamBooth 提供了對擴散模型越來越細粒度的控制。

然而,即使沒有這些額外的技術干預,使用像 Photoshop 這樣的生成模型也變得可行,從粗略的草圖開始,逐層添加生成的修改。

2022 年 10 月,最大的相簿公司之一 Shutterstock 宣佈與 OpenAI 合作提供/許可生成圖像,預計相簿市場將受到 Stable Diffusion 等生成模型的嚴重影響。

參考連結:

https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis

相關文章

「聽我說,創業公司選擇 Rust 需謹慎」

「聽我說,創業公司選擇 Rust 需謹慎」

摘要:近年來,Rust 絕對是一門成長速度飛快的程式語言,許多國內外大廠都開始關注這門年輕的語言,但本文作者表示,對於創業公司而言,Rust...

QuickTime 發佈 | 歷史上的今天

QuickTime 發佈 | 歷史上的今天

整理 | 王啟隆 透過「歷史上的今天」,從過去看未來,從現在亦可以改變未來。 今天是 2022 年 12 月 2 日,是我國的交通安全日,交...

Dall-E搶不走設計師工作

Dall-E搶不走設計師工作

【CSDN 編者按】Dall-E作為OpenAI開發的AI繪畫工具,是平面設計領域出現的一個新的AI巨星,它能夠根據文字描述智慧創建一些圖畫...