Google、Meta 等科技巨頭又挖了一個新坑。
在文字轉圖像上捲了大半年之後,Meta、Google等科技巨頭又將目光投向了一個新的戰場:文字轉影片。
上週,Meta 公佈了一個能夠生成高質量短影片的工具——Make-A-Video,利用這款工具生成的影片非常具有想象力。
當然,Google也不甘示弱。剛剛,該公司 CEO Sundar Pichai 親自安利了他們在這一領域的最新成果:兩款文字轉影片工具——Imagen Video 與 Phenaki。前者主打影片品質,後者主要挑戰影片長度,可以說各有千秋。

下面這個洗盤子的泰迪熊就是用 Imagen Video 生成的,可以看到,畫面的解析度和連貫性都有一定的保障。
下面這個片段是由 Phenaki 生成的,影片長達 2.5 分鐘。可以看出,模型對於長 prompt 的解析非常出色。
這段影片的 prompt 為:「First person view of riding a motorcycle through a busy street. First person view of riding a motorcycle through a busy road in the woods. First person view of very slowly riding a motorcycle in the woods. First person view braking in a motorcycle in the woods. Running through the woods. First person view of running through the woods towards a beautiful house. First person view of running towards a large house. Running through houses between the cats. The backyard becomes empty. An elephant walks into the backyard. The backyard becomes empty. A robot walks into the backyard. A robot dances tango. First person view of running between houses with robots. First person view of running between houses; in the horizon, a lighthouse. First person view of flying on the sea over the ships. Zoom towards the ship. Zoom
out quickly to show the coastal city. Zoom out quickly from the coastal city.」
Imagen Video:給出文字提示,生成高畫質影片
生成式建模在最近的文字到圖像 AI 系統中取得了重大進展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特別地,擴散模型在密度估計、文字到語音、圖像到圖像、文字到圖像和 3D 合成等多種生成式建模任務中取得了巨大成功。
Google想要做的是從文字生成影片。以往的影片生成工作集中於具有自迴歸模型的受限資料集、具有自迴歸先驗的潛變數模型以及近來的非自迴歸潛變數方法。擴散模型也已經展示出了出色的中等解析度影片生成能力。
在此基礎上,Google推出了 Imagen Video,它是一個基於級聯影片擴散模型的文字條件影片生成系統。給出文字提示,Imagen Video 就可以通過一個由 frozen T5 文字編碼器、基礎影片生成模型、級聯時空影片超解析度模型組成的系統來生成高畫質影片。

論文地址:https://imagen.research.google/video/paper.pdf
在論文中,Google詳細描述瞭如何將該系統擴展為一個高畫質文字轉影片模型,包括某些解析度下選擇全卷積時空超解析度模型以及選擇擴散模型的 v 參數化等設計決策。Google還將以往基於擴散的圖像生成研究成果成功遷移到了影片生成設置中。
Google發現,Imagen Video 能夠將以往工作生成的 24fps 64 幀 128×128 影片提升至 128 幀 1280×768 高畫質影片。此外,Imagen Video 還具有高度的可控性和世界知識,能夠生成多樣化藝術風格的影片和文字動畫,還具備了 3D 對象理解能力。
讓我們再來欣賞一些 Imagen Video 生成的影片,比如開車的熊貓:
遨遊太空的木船:
更多生成影片請參閱:https://imagen.research.google/video/
方法與實驗
整體而言,Google的影片生成框架是七個子影片擴散模型的級聯,它們相應執行文字條件影片生成、空間超解析度和時間超解析度。藉助整個級聯,Imagen Video 能夠以每秒 24 幀的速度生成 128 幀 1280×768 的高畫質影片(約 1.26 億像素)。
與此同時,在漸進式蒸餾的幫助下,Imagen Video 的每個子模型中僅使用八個擴散步驟就能生成高質量影片。這將影片生成時間加快了大約 18 倍。
下圖 6 展示了 Imagen Video 的整個級聯 pipeline,包括 1 個 frozen 文字編碼器、1 個基礎影片擴散模型以及 3 個空間超解析度(SSR)和 3 個時間超解析度(TSR)模型。這七個影片擴散模型共有 116 億參數。
在生成過程中,SSR 模型提高了所有輸入幀的空間解析度,同時 TSR 模型通過在輸入幀之間填充中間幀來提高時間解析度。所有模型同時生成一個完整的幀塊,這樣 SSR 模型不會遭受明顯的偽影。

Imagen Video 構建在影片 U-Net 架構之上,具體如下圖 7 所示。

在實驗中,Imagen Video 在公開可用的 LAION-400M 圖像文字資料集、1400 萬個影片文字對和 6000 萬個圖像文字對上進行訓練。結果正如上文所述,Imagen Video 不僅能夠生成高畫質影片,還具備一些純從資料中學習的非結構化生成模型所沒有的獨特功能。
下圖 8 展示了 Imagen Video 能夠生成具有從圖像資訊中學得的藝術風格的影片,例如梵高繪畫風格或水彩畫風格的影片。

下圖 9 展示了 Imagen Video 對 3D 結構的理解能力,它能夠生成旋轉對象的影片,同時物體的大致結構也能保留。

下圖 10 展示了 Imagen Video 能夠可靠地生成各種動畫樣式的文字,其中一些使用傳統工具很難來製作。

更多實驗細節請參閱原論文。
Phenaki:你講故事我來畫
我們知道,雖然從本質上講,影片就是一系列圖像,但生成一個連貫的長影片並沒有那麼容易,因為在這項任務中,可用的高質量資料非常少,而且任務本身的計算需求又很大。
更麻煩的是,像之前那種用於圖像生成的簡短文字 prompt 通常不足以提供對影片的完整描述,影片需要的是一系列 prompt 或故事。理想情況下,一個影片生成模型必須能夠生成任意長度的影片,並且要能根據某個時刻 t 的 prompt 變化調節生成的影片幀。只有具備這樣的能力,模型生成的作品才能稱之為「影片」,而不是「移動的圖像」,並開啟在藝術、設計和內容創作方面的現實創意應用之路。
Google等機構的研究人員表示,「據我們所知,基於故事的條件影片生成之前從未被探索過,這是第一篇朝著該目標邁進的早期論文。」

- 論文連結:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
- 項目連結:https://phenaki.github.io/#interactive
由於沒有基於故事的資料集可以拿來學習,研究人員沒有辦法簡單地依靠傳統深度學習方法(簡單地從資料中學習)完成這些任務。因此,他們專門設計了一個模型來完成這項任務。
這個新的文字轉影片模型名叫 Phenaki,它使用了「文字轉影片」和「文字轉圖像」資料聯合訓練。該模型具有以下能力:
1、在開放域 prompt 的條件下生成時間上連貫的多樣化影片,即使該 prompt 是一個新的概念組合(見下圖 3)。生成的影片可以長達幾分鐘,即使該模型訓練所用的影片只有 1.4 秒(8 幀 / 秒)

2、根據一個故事(即一系列 prompt)生成影片,如下圖 1 和圖 5 所示:


從以下動圖中我們可以看到 Phenaki 生成影片的連貫性和多樣性:
要實現這些功能,研究人員無法依賴現有的影片編碼器,因為這些編碼器要麼只能解碼固定大小的影片,要麼獨立編碼幀。為了解決這個問題,他們引入了一種新的編碼器 – 解碼器架構——C-ViViT。
C-ViViT 可以:
- 利用影片中的時間冗餘來提高每幀模型的重構質量,同時將影片 token 的數量壓縮 40% 或更多;
- 在給定因果結構的情況下,允許編碼和解碼可變長度影片。
PHENAKI 模型架構
受之前自迴歸文字轉圖像、文字轉影片研究的啟發,Phenaki 的設計主要包含兩大部分(見下圖 2):一個將影片壓縮為離散嵌入(即 token)的編碼器 – 解碼器模型和一個將文字嵌入轉換為影片 token 的 transformer 模型。

獲取影片的壓縮表示是從文字生成影片的主要挑戰之一。之前的工作要麼使用 per-frame 圖像編碼器,如 VQ-GAN,要麼使用固定長度影片編碼器,如 V ideoVQVAE。前者允許生成任意長度的影片,但在實際使用中,影片必須要短,因為編碼器不能及時壓縮影片,並且 token 在連續幀中是高度冗餘的。後者在 token 數量上更加高效,但它不允許生成任意長度的影片。
在 Phenaki 中,研究者的目標是生成可變長度的影片,同時儘可能壓縮影片 token 的數量,這樣就可以在當前的計算資源限制下使用 Transformer 模型。為此,他們引入了 C-ViViT,這是 ViViT 的一種因果變體,為影片生成進行了額外的架構更改,它可以在時間和空間維度上壓縮影片,同時保持時間上的自迴歸。該功能允許生成任意長度的自迴歸影片。
為了得到文字嵌入,Phenaki 還用到了一個預訓練的語言模型——T5X。
具體細節請參見原論文。