Google搶先手發佈視訊生成類AIGC,網友:可以定製電影了

AIGC 已經火了很長時間了,出現了文字生成圖像、文字生成視訊、圖像生成視訊等廣泛的應用場景,如今Google研究院的一項新研究可以讓我們根據輸入視訊生成其他視訊了!

我們知道,生成模型和多模態視覺語言模型的進展已經為具備前所未有生成真實性和多樣性的大型文字到圖像模型鋪平了道路。這些模型提供了新的創作過程,但僅限於合成新圖像而非編輯現有圖像。為了彌合這一差距,基於文字的直觀編輯方法可以對生成和真實圖像進行基於文字的編輯,並保留這些圖像的一些原始屬性。與圖像類似,近來文字到視訊模型也提出了很多,但使用這些模型進行視訊編輯的方法卻很少。

在文字指導的視訊編輯中,使用者提供輸入視訊以及描述生成視訊預期屬性的文字 prompt,如下圖 1 所示。目標有以下三個方面,1)對齊,編輯後的視訊應符合輸入文字 prompt;2)保真度,編輯後的視訊應保留原始視訊的內容,3)質量,編輯後的視訊應具備高質量。

可以看到,視訊編輯比圖像編輯更加具有挑戰性,它需要合成新的動作,而不僅僅是修改視覺外觀。此外還需要保持時間上的一致性。因此,將 SDEdit、Prompt-to-Prompt 等圖像級別的編輯方法應用於視訊幀上不足以實現很好的效果。

在近日Google研究院等發表在 arXiv 的一篇論文中,研究者提出了一種新方法 Dreamix,它受到了 UniTune 的啟發,將文字條件視訊擴散模型(video diffusion model, VDM)應用於視訊編輯

  • 論文地址:https://arxiv.org/pdf/2302.01329.pdf
  • 項目主頁:https://dreamix-video-editing.github.io/

文中方法的核心是通過以下兩種主要思路使文字條件 VDM 保持對輸入視訊的高保真度。其一不使用純噪聲作為模型初始化,而是使用原始視訊的降級版本,通過縮小尺寸和添加噪聲僅保留低時空資訊;其二通過微調原始視訊上的生成模型來進一步提升對原始視訊的保真度。

微調確保模型了解原始視訊的高解析度屬性。對輸入視訊的簡單微調會促成相對較低的運動可編輯性,這是因為模型學會了更傾向於原始運動而不是遵循文字 prompt。研究者提出了一種新穎的混合微調方法,其中 VDM 也在輸入視訊各個幀的集合上進行微調,並丟棄了它們的時序。混合微調顯著提升了運動編輯的質量。

研究者進一步利用其視訊編輯模型提出了一個新的圖像動畫框架,如下圖 2 所示。該框架包含了幾個步驟,比如為圖像中的對象和背景設置動畫、創建動態相機運動等。他們通過幀複製或幾何圖像變換等簡單的圖像處理操作來實現,從而創建粗糙的視訊。接著使用 Dreamix 視訊編輯器對視訊進行編輯。此外研究者還使用其微調方法進行目標驅動的視訊生成,也即 Dreambooth 的視訊版本。

在實驗展示部分,研究者進行了廣泛的定性研究和人工評估,展示了他們方法的強大能力,具體可參考如下動圖。

對於Google這項研究,有人表示,3D + 運動和編輯工具可能是下一波論文的熱門主題。

還有人表示:大家可以很快在預算內製作自己的的電影了,你所需要的只是一個綠幕以及這項技術:

方法概覽

方法概覽

本文提出了一種新的方法用於視訊編輯,具體而言:

通過逆向被破壞視訊進行文字引導視訊編輯

他們採用級聯 VDM( Video Diffusion Models ),首先通過下采樣對輸入視訊就行一定的破壞,後加入噪聲。接下來是級聯擴散模型用於取樣過程,並以時間 t 為條件,將視訊升級到最終的時間 – 空間解析度。

在對輸入視訊進行破壞處理的這一過程中,首先需要進行下采樣操作,以得到基礎模型(16 幀 24 × 40),然後加入方差為

高斯噪聲,從而進一步破壞輸入視訊

高斯噪聲,從而進一步破壞輸入視訊。

對於上述處理好的視訊,接下來的操作是使用級聯 VDM 將損壞掉的低解析度視訊對映到與文字對齊的高解析度視訊。這裡的核心思想是,給定一個嘈雜的、時間空間解析度非常低的視訊,有許多完全可行的、高解析度的視訊與之對應。本文中基礎模型從損壞的視訊開始,它與時間 s 的擴散過程具有相同的噪聲。然後該研究用 VDM 來逆向擴散過程直到時間 0。最後通過超解析度模型對視訊進行升級。

混合視訊圖像微調

僅利用輸入視訊進行視訊擴散模型的微調會限制物體運動變化,相反,該研究使用了一種混合目標,即除了原始目標(左下角)之外,本文還對無序的幀集進行了微調,這是通過「masked temporal attention」來完成的,以防止時間注意力和卷積被微調(右下)。這種操作允許向靜態視訊中添加運動。

推理

推理

在應用程序預處理的基礎上(Aapplication Dependent Pre-processing,下圖左),該研究支持多種應用,能將輸入內容轉換為統一的視訊格式。對於圖像到視訊,輸入圖像被複制並被變換,合成帶有一些相機運動的粗略視訊;對於目標驅動視訊生成,其輸入被省略,單獨進行微調以維持保真度。然後使用 Dreamix Video Editor(右)編輯這個粗糙的視訊:即前面講到的,首先通過下采樣破壞視訊,添加噪聲。然後應用微調的文字引導視訊擴散模型,將視訊升級到最終的時間空間解析度。

實驗結果

實驗結果

視訊編輯:下圖中 Dreamix 將動作改為舞蹈,並且外觀由猴子變為熊,但視訊中主體的基本屬性沒有變:

Dreamix 還可以生成與輸入視訊時間資訊一致的平滑視覺修改,如下圖會滑滑板的小鹿:

圖像到視訊:當輸入是一張圖像時,Dreamix 可以使用其視訊先驗添加新的移動對象,如下圖中添加了在有霧的森林中出現一頭獨角獸,並放大。

小屋旁邊出現企鵝:

目標驅動視訊生成:Dreamix 還可以獲取顯示相同主題的圖像集合,並以該主題為運動對象生成新的視訊。如下圖是一條在葉子上蠕動的毛毛蟲:

除了定性分析外,該研究還進行了基線比較,主要是將 Dreamix 與 Imagen-Video、 Plug-and-Play (PnP) 兩種基線方法進行對比。下表為評分結果:

圖 8 展示了由 Dreamix 編輯的視訊和兩個基線示例:文字到視訊模型實現了低保真度的編輯,因為它不以原始視訊為條件。PnP 保留了場景,但不同幀之間缺乏一致性;Dreamix 在這三個目標上都表現良好。

更多技術細節請參閱原論文

更多技術細節請參閱原論文。

相關文章

ChatGPT,一種更中心化的權力?

ChatGPT,一種更中心化的權力?

引 ChatGPT的威力毋需贅述,它是溫和的聚變。 越是會使用的人,驚喜之餘,越是會感到害怕。 作為這個時代技術的傑出結晶,它帶來的是不可預...