這段視訊火爆外網,Google把AI視訊造假搞得太真太簡單了

金磊 Pine 發自 凹非寺

家人們,AI做視訊這事今天又被推向了輿論的風口浪尖。

起因是有人在網上發佈了這麼一隻小企鵝的視訊:

而這個近50秒視訊的誕生,靠的僅僅是6句話

陸陸續續的,網友們還在發佈著這個AI的其它傑作:

這次給它投餵的提示詞也是極短,僅4行

如此「所寫即所得」、絲滑連貫的視訊生成方式,也是令不少網友發出感慨:

未來已至。

未來已至

甚至還有人開始「拉仇恨」,說AI正在用各種方式摧毀行業……

然後就有很多人發問了:「這又是哪家新搞的AI哇?」

不過眼尖的網友發現它其實是一位「老朋友」了——

Google去年10月份便發佈的一個文字轉視訊(Text-to-Video)模型:Phenaki

只需一段提示詞,分分鐘可以生成長達兩分鐘的視訊。

而相比Phenaki剛發佈的時候,Google又來了一波上新操作

那麼我們現在就來一同看看這些新視訊吧~

打字就能生成的視訊

與以往AI生成的視訊不同,Phenaki最大的特點便是有故事有長度

例如,我們再給這麼一段場景描述:

在一座未來感十足的城市裡,交通紛繁複雜,這時,一艘外星飛船抵達了城市。

隨著鏡頭的拉近,畫面進入到了飛船內部;而後鏡頭沿著船內長廊繼續向前推進,直到看到一名宇航員在藍色的房間裡敲鍵盤打字。

鏡頭逐漸移向宇航員的左側,身後出現藍色海洋,魚兒們在水裡徜徉;畫面快速放大聚焦到一條魚的身上。

隨後鏡頭快速從海里浮出,直到看到摩天大樓高聳林立的未來城市;鏡頭再快速拉近到一撞大樓的辦公室。

這時,一隻獅子突然跳到辦公桌上並開始奔跑;鏡頭先聚焦到獅子的臉上,等再次拉遠時,這隻獅子已經幻化成西裝革履的「獸人」。

最後,鏡頭從辦公室拉出,落日餘暉下鳥瞰這座城市。

想必不少友友們在讀這段文字過程中,腦中已經浮現相應的畫面了。

接下來,我們一起看看Phenaki生成的效果如何:

是不是和你腦補出來的畫面一致呢?

總體來說,這個AI即便面對這種腦洞大開的場景提示詞,也是做到了無縫銜接的轉場。

也難怪網友們看完這段視訊後驚呼「(科技)發展得真快啊」。

而對於篇幅稍短的提示詞,Phenaki就更不在話下了。

例如,給Phenaki投餵這樣一段文字:

一隻逼真的泰迪熊正在潛水;隨後它慢慢浮出水面;走上沙灘;這時鏡頭拉遠,泰迪熊行走在海灘邊篝火旁。

沒看夠?那再來一段,這次換個主角:

在火星上,宇航員走過一個水坑,水裡倒映著他的側影;他在水旁起舞;然後宇航員開始遛狗;最後他和小狗一起看火星上看煙花。

而在Google更早發佈Phenaki之際,還展示了向Phenaki輸入一個初始幀以及一個提示詞,便可以生成一段視訊的能力。

例如給定這樣一張靜態圖:

例如給定這樣一張靜態圖

然後再給它Phenaki簡單「投餵」一句:白貓用貓爪觸摸攝像機。效果就出來了:

還是基於這張圖,把提示詞改成「一隻白貓打哈欠」,效果就成這樣了:

當然,任意切換視訊整體風格也是可以hold得住的:

網友:視訊行業要被AI衝擊了嗎?

但除了Phenaki之外,Google當時還一道發佈過Imagen Video,能夠生成1280*768解析度、每秒24幀的高畫質視訊片段。

它基於圖像生成SOTA模型Imagen,展示出了三種特別的能力:

  • 能理解並生成不同藝術風格的作品,水彩、像素甚至梵高風格

  • 能理解物體的3D結構

  • 繼承了Imagen準確描繪文字的能力

更早的,Meta也發佈了Make-A-Video,不僅能夠通過文字轉換視訊,還能根據圖像生成視訊,比如:

  • 將靜態圖像轉成視訊

  • 插幀:根據前後兩張圖片生成一段視訊

  • 根據原視訊生成新視訊

    ……

對於這如「雨後春筍」突然冒出的生成視訊模型,不免會讓有些人擔心:

當然也有人認為現在時機還未到

當然也有人認為現在時機還未到:

0-1總會很快,1-100還是會很漫長。

不過已經有網友在期待靠AI拿奧斯卡獎了:

AI要多久才能成為新的視訊編輯器,或者拿下奧斯卡?

原理介紹

再說回Phenaki,有不少網友都比較好奇它是如何通過文字生成這麼絲滑的視訊的?

簡單來說,Phenaki相較於以往的生成視訊模型,它更注重時間長度任意性連貫性

Phenaki之所以能夠生成任意時間長度的視訊,很大程度上要歸功於新的編碼器-解碼器架構:C-ViViT

它是ViViT的一個因果變體,能夠將視訊壓縮為離散嵌入。

要知道,以往獲取視訊壓縮,要麼就是編碼器不能及時壓縮視訊,導致最終生成的視訊過短,例如VQ-GAN,要麼就是編碼器只支持固定視訊長度,最終生成視訊的長度不能任意調節,例如VideoVQVAE。

但C-ViViT就不一樣了,它可謂是兼顧了上面兩種架構的優點,能夠在時間和空間維度上壓縮視訊,並且在時間上保持自迴歸的同時,還可以自迴歸生成任意長度的視訊。

C-ViViT可以使模型生成任意長度的視訊,那最終視訊的邏輯性又是怎麼保證的呢?

這就得靠Phenaki另外一個比較重要的部分:雙向Transformer。

在這其中,為節省時間,取樣步驟是固定的,並且在處理文字提示的過程中,能同時預測不同的視訊token。

這樣一來,結合前面提到的,C-ViViT能夠在時間和空間維度上壓縮視訊,壓縮出來的token是具有時間邏輯性的。

也就是說,在這些token上經過掩碼訓練的Transformer也具備時間邏輯性,最終生成的視訊在連貫性自然也就有了保證。

如果還想了解更多關於Phenaki的東西,可以戳這裡查看。

Phenaki:

https://phenaki.github.io

參考連結:

[1] https://phenaki.video/

[2] https://phenaki.research.google/

[3] https://twitter.com/AiBreakfast/status/1614647018554822658

[4] https://twitter.com/EvanKirstel/status/1614676882758275072

相關文章

這家公司只有1個人,年賺一個億

這家公司只有1個人,年賺一個億

金磊 Pine 發自 凹非寺 量子位 | 公眾號 QbitAI 全公司上下僅有1個人,每年竟能賺上1400多萬美元(1億多元)。 這並不是什...