
潮起浪湧,拍擊礁石。
你以為這是慢動作錄製的自然片段?非也。

只要一張靜態風景照,幾分鐘之內,AI就能還原出這自然界的壯闊動態。
延時攝影,慢動作效果,一圖即可復現。
畫質是清晰的1080p,入門門檻卻不高,僅需一個GPU和幾百兆字節的預訓練數據。
紀錄片缺素材,後期製作太麻煩?有了這隻AI就不怕了。
這項來自日本筑波大學的研究,登上計算機圖形學頂會SIGGRARH Asia,預訓練模型和代碼均已開源(地址見文末)。
還原自然的雲捲雲舒
這隻AI,專注於自然界雲與水的律動。

△輸出

△輸入
天上雲捲雲舒,水面雲的倒影也會隨之移動。
不僅有空間移動,晨光暮色,亦能動態呈現。

△4倍速
像不像記錄片裡的片段?
不僅如此,天空雲湧,水面潮起,在這場AI的魔術表演中,就像在自然界中一樣兩不相誤。

與前輩作品相比,這樣的表現完全是大師級別。

△上排為前輩作品,下排為新方法
難怪網友驚歎:這太美了!

原理
這一魔法的實現,需要以下相關的工作:光流預測、風格遷移、視頻預測等。
光流是一種描述圖像中各像素運動速度和方向的方法,根據物體相鄰兩幀的差異可以計算出圖像的光流,同樣也可以根據光流推測是視頻下一秒可能的樣子。

風格遷移通過感知損失的反向傳播來優化輸出圖像,在保留源內容的前提下,改變圖像的風格,而本文中,風格遷移的主要作用是對圖像中變化部分的顏色進行更改。
去年有人提出了通過風格遷移方法實現圖像的晝夜交替、四季更迭的轉換。而輸出視頻的難度在於要實現這種變換的平滑性。
下圖展示了視頻合成的整個流程:給定輸入圖像和控制未來變化的潛在代碼,運動預測器會生成將來的向後光流(backward flows)。

這些流使輸入圖像變形,合成添加了運動的圖像,然後將它們轉換為運動循環。
但是,僅僅讓圖片動起來還不夠,由於延時攝影的特點是時間長,在這段時間裡,天色還會變暗。
因此還要對整張圖片的色調進行更改,不是簡單的調個色,而是要讓視頻畫面的顏色隨著時間推進平滑地過渡。
這就是外觀預測器負責的工作,它能夠更改運動預測器生成圖片的顏色,從而獲得輸出視頻。
在一般的循環推理中,錯誤會在循環的輸出幀中累積。而在這篇論文的運動預測中,這些光流在空間上是平滑的,因此對錯誤的敏感度較低。
此外,算法通過回溯到輸入圖像來重構每個預測幀,避免由於重複的顏色採樣而導致RGB值的錯誤累積。
運動預測器
訓練運動預測器的方法非常直接,最終目標就是讓模型預測的光流場與真實光流場之間的差異最小化。

至於推理過程,首先從單個輸入圖像生成加入的運動幀,通過線性混合(linear blending)使其循環,然後對每個幀進行顏色轉換。
在這個過程中反覆使用預測幀作為下一個運動預測的輸入幀,重複此過程獲得多個幀。

但是自監督的環境中預測光流場是有挑戰性的,因為這本質上是要找到兩個具有較大自由度的連續幀之間的對應關係,這很容易陷入局部最優值中,從而產生不一致的流場。
為此,作者在預測和訓練階段都限制了輸出光流場的範圍,以一個常數除預測的光流場,限制它們的幅度範圍。事實也證明了這種方法的有效性。

外觀預測器
由於外觀預測器是使用輸入圖像和每個訓練視頻中兩幀之間任意幀來訓練的,因此需要一個潛在代碼來控制每個幀的外觀。
最終,顏色遷移圖通過輸入圖像和控制的潛在編碼來共同計算完成。這種方法避免了反覆直接從輸入圖像預測導致隨時間變化的色彩。

日本團隊
論文的第一作者,是日本筑波大學計算機幾何與圖形實驗室(CGG)的副教授遠藤裕紀(Yuki Endo)。

另外兩位合作者,分別是同實驗室的金森佳宏(Yoshihiro Kanamori)副教授,和豐橋技術科技大學的慄山繁( Kuriyama Shigeru)教授。


傳送門
PyTorch代碼:
https://github.com/endo-yuki-t/Animating-Landscape
項目地址:
http://www.cgg.cs.tsukuba.ac.jp/~endo/projects/AnimatingLandscape/
論文地址:
https://arxiv.org/abs/1910.07192
作者系網易新聞·網易號「各有態度」簽約作者
邊策 魚羊 發自 凹非寺量子位 報道 | 公眾號 QbitAI