AI版「女媧」來了!文字生成圖像、視訊,8類任務一個模型搞定

編輯:陳萍、小舟

AI會是未來的「造物者」嗎?

近來,視覺合成任務備受關注。幾天前英偉達的 GauGAN 剛剛上新了 2.0 版本,現在一個新視覺合成模型 Nüwa(女媧)也火了。

相比於 GauGAN,「女媧」的生成模式更加多樣,不僅有文字塗鴉生成圖像,還能從文字生成視訊。

隨著 VQ-VAE 這種離散化 VAE 方案的出現,高效和大規模的預訓練被逐漸應用於視覺合成任務,例如 DALL-E(圖像)、GODIVA(視訊)。這些模型雖然取得了巨大的成功,但仍然存在一些侷限性——它們分別處理圖像和視訊,專注於生成其中一種,這限制了模型從圖像和視訊資料中受益。相比之下,「女媧」是一個統一的多模態預訓練模型,在 8 種包含圖像和視訊處理的下游視覺任務上具有出色的合成效果

論文地址:https://arxiv.org/pdf/2111.12417.pdf

GitHub 地址:https://github.com/microsoft/NUWA

模型概覽

該研究提出了一個通用的 3D transformer——編碼器 – 解碼器框架(如下圖所示),同時涵蓋了語言、圖像和視訊,可用於多種視覺合成任務。該框架由以文字或視覺草圖作為輸入的自適應編碼器和由 8 個視覺合成任務共享的解碼器組成。

「女媧」整體架構圖

「女媧」整體架構圖。

該框架還包含一種 3D Nearby Attention (3DNA) 機制,以考慮空間和時間上的局部特徵。3DNA 不僅降低了計算複雜度,還提高了生成結果的視覺質量。與幾個強大的基線相比,「女媧」在文字到圖像生成、文字到視訊生成、視訊預測等方面都得到了 SOTA 結果。此外,「女媧」還顯示出驚人的零樣本學習能力。

「女媧」的 8 種跨模態合成模式分別是:

文字轉圖像:

文字轉圖像

塗鴉轉圖像:

圖像補全

圖像補全:

圖像補全

根據文字編輯圖像:

文字轉視訊

文字轉視訊:

文字轉視訊

視訊預測:

塗鴉轉視訊

塗鴉轉視訊:

根據文字編輯視訊

根據文字編輯視訊:

實驗結果

還研究通過多項實驗評估了合成結果。

首先研究者將「女媧」在三個資料集上進行預訓練:用於文字 – 圖像 (T2I) 生成的 Conceptual Captions,包括 2.9M 文字 – 圖像對;用於視訊預測 (V2V) 的 Moments in Time,包括 727K 視訊;用於文字 – 視訊 (T2V) 生成的 VATEX 資料集,包括 241K 文字 – 視訊對。

與 SOTA 方法比較

文字 – 圖像 (T2I) 微調:該研究比較了「女媧」在 MSCOCO 資料集上的性能,如表 1 和圖 3 所示:在表 1 中,「女媧」明顯優於 CogView,其中 FID-0 為 12.9,CLIPSIM 為 0.3429 。儘管 XMC-GAN 的 FID-0 為 9.3,優於「女媧」,但「女媧」能生成更逼真的圖像,如圖 3 所示。特別是在最後一個例子中,「女媧」生成的男孩臉更清晰,並且男孩旁邊的氣球也很逼真。

文字 – 視訊 (T2V) 微調:該研究在 Kinetics 資料集上評估了「女媧」,結果如表 2 和圖 4 所示。在表 2 中,「女媧」在所有指標上實現了最好的性能。

在圖 4 中,該研究還展示了「女媧」強大的零樣本生成能力,可以生成沒見過的圖像,例如:在游泳池裡打高爾夫球,在海里奔跑:

視訊預測 (V2V) 微調:該研究在 BAIR Robot Pushing 資料集上對「女媧」和其他模型進行了比較,結果如表 3 所示:為了進行公平比較,所有模型都使用 64×64 解析度。雖然只給出了一幀作為條件(Cond.),但「女媧」仍然將 SOTA FVD 得分從 94±2 降到 86.9 。

草圖 – 圖像 (S2I)微調:該研究在 MSCOCO stuff 上進行實驗,如圖 5 所示。與 Taming-Transformers 和 SPADE 相比,「女媧」生成了種類繁多的逼真汽車, 甚至巴士車窗的反射也清晰可見。

圖像補全 (I2I) 零樣本評估:給定塔樓的上部,與 Taming Transformers 模型進行比較,「女媧」可以生成對塔樓下半部分更豐富的想象,包括生成周圍建築物、湖泊、花草、樹木、山脈等。

文字 – 指導圖像處理 (TI2I) 零樣本評估:「女媧」顯示了其強大的處理能力,可以生成高質量的文字一致性結果,而不會改變圖像的其他部分。

消融實驗

消融實驗

圖 5 顯示了文字 – 視訊 (T2V) 生成任務中多工預訓練的有效性。該研究在具有挑戰性的資料集 MSR-VTT(具有自然描述和真實視訊) 上進行了實驗。「女媧」FID-vid 為 47.68,CLIPSIM 為 0.2439。

圖 9 顯示了文字指導視訊處理(TV2V)。第一行顯示了原始視訊幀,潛水員在潛水;第二行為潛水員正在向水面遊;第三行顯示可以讓潛水員游到海底,如果我們想生成讓潛水員飛向天空的圖片?「女媧」可以實現,從圖中可以看出,潛水員像火箭一樣飛向天空。

2021 NeurIPS MeetUp China

受疫情影響,NeurIPS 2021依然選擇了線上的形式舉辦。雖然這可以為大家節省一筆註冊、機票、住宿開支,但不能線下參與這場一年一度的學術會議、與學術大咖近距離交流討論還是有些遺憾。

我們將在NeurIPS官方支持下,於12月11日上海博雅酒店舉辦線下NeurIPS MeetUp China,促進國內人工智慧學術交流。

2021 NeurIPS MeetUp China將設置 Keynote、圓桌論壇、論文分享、 Poster和企業招聘等環節,邀請頂級專家、論文作者與現場參會觀眾共同交流。

歡迎 AI 社區從業者們積極報名參與,同時我們也歡迎 NeurIPS 2021 論文作者們作為嘉賓參與論文分享與 Poster 展示。感興趣的小夥伴點選「閱讀原文」即可報名。

相關文章

千萬別讓富堅義博看到這個

千萬別讓富堅義博看到這個

明敏 蕭簫 發自 凹非寺 量子位 | 公眾號 QbitAI 先來看一段高畫質版的《清明上河圖》: 你能看出這幅畫與原作的差異嗎? 其實,這是...

像素時代的黃昏和「淘寶叛軍」

像素時代的黃昏和「淘寶叛軍」

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微...

英偉達的元宇宙夢想,不止 Omniverse

英偉達的元宇宙夢想,不止 Omniverse

英偉達已經成為元宇宙的基礎服務商。 作者 | Founder Park 要談元宇宙,英偉達是避不開的。 不管是更真實呈現虛擬世界所需要的光追...

2140:元宇宙中的一天

2140:元宇宙中的一天

01 2140年12月4日10時24分 「嘭!」 該死,肯定是隔壁熊孩子又在映象世界(虛擬世界)裡扔石頭了。 8 歲的小屁孩不應該在物理世界...

豐田用 bZ3 證明,大廠「通電」為時不晚

豐田用 bZ3 證明,大廠「通電」為時不晚

新能源車大戰,其實剛剛開始,永遠會有「黑馬」跑出來。 作者 | 靖宇 美國加州,相距不遠的矽谷和好萊塢一直流傳一個傳說——因為蘋果曾經和六大...

建設 Web3,現在最需要 Web2 的移民?

建設 Web3,現在最需要 Web2 的移民?

Web3 處在「大規模應用」爆發的前夜 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於前...