內容一覽:Runway 是一家人工智慧視訊編輯軟體供應商。據了解,本屆奧斯卡最大贏家影片《瞬息全宇宙》製作過程中採用了這家公司的技術。
關鍵詞:瞬息全宇宙 Runway Gen-1
3 月 13 日上午,2023 年奧斯卡頒獎禮在洛杉磯舉行,影片《瞬息全宇宙》一舉斬獲七項大獎,成為最大贏家。主演楊紫瓊也憑藉該片將奧斯卡最佳女主角獎收入囊中,成為奧斯卡歷史上首位華裔影后。

楊紫瓊奧斯卡封后,圖源網路
據了解,這部正在被熱議的科幻電影背後的視覺效果團隊僅有 5 人,為了儘快完成這些特效鏡頭,他們選擇了 Runway 公司的技術來幫助創建某些場景,比如為圖像去除背景的綠幕工具 (The Green Screen)。
「僅僅幾次點選就讓我節省幾個小時,我可以用這些時間嘗試三四種不同的效果,讓影片效果更好。」導演兼編劇 Evan Halleck 受訪時談道。

手指進化成熱狗宇宙,圖源網路
Runway:參與初代Stable Diffusion開發
2018 年底,Cristóbal Valenzuela 聯合其他成員創立 Runway。它是一家人工智慧視訊編輯軟體提供商,致力於利用計算機圖形學及機器學習的最新進展,為設計師、藝術家和開發人員降低內容創作的門檻、推動創意內容的發展。

據 Forbes 報道,該公司年收入將近 500 萬美元,員工僅 40 人左右
除此之外,Runway 還有一個鮮為人知的身份–Stable Diffusion 初始版本的主要參與公司。
2021 年,Runway 與德國慕尼黑大學合作,構建了第一個版本的 Stable Diffusion,隨後英國初創公司 Stability AI 「帶資進組」,為 Stable Diffusion 提供了更多模型訓練所需的計算資源和資金。不過目前 Runway 和 Stability AI 已經不再合作。
2022 年 12 月,Runway 獲得 5000 萬美元的 C 輪融資,除《瞬息全宇宙》團隊外,客戶還包括傳媒集團 CBS、MBC,廣告公司 Assembly、VaynerMedia,設計公司 Pentagram 等。
2023 年 2 月 6 日,Runway 官方Twitter發佈 Gen-1 模型,可以通過應用文字提示或者參考圖像所指定的任意風格,將現有視訊轉換為新視訊。

Runway Twitter 官宣 Gen-1
Gen-1:structure + content 雙管齊下
科研人員提出了一個結構 (structure) 和內容 (content) 引導的 video diffusion model–Gen-1,可以依據預期輸出的視覺或文字描述,對視訊進行編輯。

Gen-1 模型原理展示
所謂 content,是指描述視訊的外表 (appearance) 和語義的特徵,如目標物體的顏色、風格以及場景的燈光。
而 structure 則是指描述其幾何和動態的特徵,如目標物體的形狀、位置以及時間變化。
Gen-1 模型的目標是在保留視訊 structure 的同時,編輯視訊 content。
在模型訓練過程中,科研人員用到了一個由未加字幕的視訊及 text-image pair 構成的大規模資料集,同時,用單目場景深度預測 (monocular depth estimates) 來表示 structure,用預訓練神經網路預測的 embedding 來表示 content。
該方法在生成過程中提供了幾種強大的控制模式:
1. 參考圖像合成模型,訓練模型使得推理的視訊 content(如呈現或風格)與使用者提供的 image 或 prompt 相匹配。

Guided VideoSynthesis 示例
在保留輸入視訊(中間)structure 的同時
基於文字提示或圖像合成的視訊(上及下)
2. 參考 diffusion 過程,對結構表徵 (structure representation) 進行 information obscuring,這使得開發者可以自行設定 model adhere 對於給定 structure 的相似程度。
3. 參考 classifier-free guidance,藉助自定義 guidance 方法,調整推理過程,從而控制生成 clip 的時間一致性。
在該實驗中,科研人員:
通過在預訓練的圖像模型中引入 temporal layer,並對圖像和視訊進行聯合訓練,將 latent diffusion model 擴展到視訊生成中。
提出了一個 structure 和 content-aware 模型,可以在示例圖像或文字的指導下修改視訊。視訊編輯完全是在推理階段進行的,無需逐個視訊進行訓練或預處理。
對 temporal、content 和 structure 一致性的完全控制。實驗表明,在圖像和視訊資料上的聯合訓練,能夠在推理期間上控制一致性 (temporal consistency)。對於結構一致性 (structure consistency),在表徵的不同細節水平上訓練,使使用者得以在推理過程中選擇所需的設置。
一項使用者調研表明,該方法比其他幾種方法更受歡迎。
通過對一小部分圖像進行微調,可以進一步定製訓練過的模型,以生成更準確的特定 subject 的視訊。
為了評估 Gen-1 的性能,科研人員用 DAVIS 資料集中的視訊以及其他各種素材進行了評估。為了自動創建編輯 prompt,研究人員首先運行了一個 captioning 模型來獲得原始視訊內容的描述,然後使用 GPT3 生成編輯 prompt。

Gen-1 與其他模型生成效果的使用者滿意度對比
實驗結果表明,在對所有方法生成效果的滿意度調研中,75% 的使用者更傾向 Gen-1 的生成效果。
AIGC:爭議中前行
2022 年,生成式人工智慧成為自十多年前移動和雲端運算興起以來最引人注目的技術,我們正有幸見證其應用層的萌芽,許多大模型正迅速從實驗室中走出來,撲向真實世界的各個場景。
然而,儘管有提高效率、節省成本等諸多好處,我們也需要看到,生成式人工智慧依然面臨多種挑戰,包括如何提高模型的輸出質量和多樣性、如何提高其生成速度,以及應用過程中的安全、隱私和倫理宗教等問題。
有些人對 AI 藝術創作提出質疑,更有甚者認為這是一種 AI 對藝術的「入侵」,面對這種聲音,Runway 聯合創始人兼 CEO Cristóbal Valenzuela 認為,AI 只是工具箱中一個用來給圖像等內容上色或修改的工具,與 Photoshop、LightRoom 並無二致。雖然生成式人工智慧還存在一些爭議,但它為非技術人員和創意人員打開了創作的大門,並將帶領內容創作領域走向新的可能。
參考連結:
[1]https://hub.baai.ac.cn/view/23940
[2]https://cloud.tencent.com/developer/article/2227337?