英偉達讓AI「演技」再上臺階:僅靠語音驅動1張照片說話,驚訝恐懼表情狠狠拿捏

Pine 發自 凹非寺

輸入一段臺詞,讓照片「演戲」又進階了!

這次的AI直接讓「演技」整體上了一個臺階,表演生氣、開心、可憐……各種情緒都不在話下。

並且,口型、眼神、頭部動作也都讓這個AI狠狠拿捏住了!

甚至還能調節喜怒哀樂的程度。

這是英偉達最新推出的一款AI,名為SPACEx(此SPACEx非馬斯克的SpaceX),全稱是可控表達的語音驅動肖像動畫(Speech-driven Portrait Animation with Controllable Expression)。

其實,在英偉達推出SPACEx之前,已經有不少語音驅動照片的AI問世,那相較於之前那些AI,SPACEx有什麼優勢呢?

人臉動作更穩定,更注重細節

此前,最常使用的語音驅動照片的AI主要有三個:PC-AVS、MakeItTalk和Wav2Lip。

但這三個AI都或多或少有些缺陷之處,並且要麼只能對口型,要麼就只是整體面部控制的比較好,多個功能往往不能兼顧。

先來說說PC-AVS,它在對圖像和語音進行處理時,會對輸入圖像進行嚴格的剪裁,甚至還會改變姿勢,此外,生成的人臉動作很不穩定。

而MakeItTalk,在對口型方面效果不是很好,有時候生成的視訊中還會出現空白的地方。

Wav2Lip的功能則比較單一,它主要是配音AI,只改變唇部的動作,唇部之外的面部表情毫無變化。

而這些問題,在SPACEx身上通通都被解決掉了,話不多說,直接看看它們之間的效果對比!

可以看出,無論是細節的口型、眼神,還是整體的面部動作,SPACEx都會更加自然一些。

而細分到各個具體的功能,SPACEx都集成了哪些功能呢?

下面這個表格給出了答案,情緒控制、標記面部landmark、頭部轉動和動作生成,SPACEx都能很好地兼顧,不會像以往的模型顧此失彼。

值得注意的是,SPACEx生成視訊的質量也整體上升了一個臺階,以往同類型的AI最高只能達到384的解析度,而SPACEx這次已經達到了512X512。

兼顧這麼多功能還能生成高質量視訊,SPACEx又是怎樣做到的呢?

具體原理

其中,很大一部分功勞是face-vid2vid貢獻的,它是英偉達兩年前公佈的一個AI演算法。

它不僅能壓縮視訊的流量,還能保證視訊的畫質。

並且,face-vid2vid還能讓視訊中的人物隨意扭頭。

不過它要求輸入的是一個視訊,而SPACEx則是一個圖片,它倆又是怎麼關聯到一起的?

這得從SPACEx生成視訊的過程來看,主要分三個階段。

第一個階段可以概括為Speech2Landmarks,即從輸入的語音中來預測各個音節所對應的標準面部landmarks。

在預測的過程中,還會插入對應的情緒標籤。

預測好面部landmarks後,來到第二步:Landmarks2Latents,輸入各個圖像的face-vid2vid關鍵點,以控制整個面部表情。

然後將這些關鍵點對應到上一步輸出的標準面部landmarks上。

最後一步便能通過face-vid2vid生成器來生成視訊了。

話說回來,當然SPACEx也不是個全能選手,當輸入有較大的頭部旋轉時,現有的方法表現就不是很好了。

不過還是值得一試的,感興趣可以戳下文連結~

論文地址:

https://arxiv.org/pdf/2211.09809.pdf

參考連結:

https://deepimagination.cc/SPACEx/

相關文章