革字幕,鼎配音,AI這次玩大了

如果這樣的AI被大規模部署,將顛覆工作室、內容創作者和製作人的遊戲規則。這幾乎不可避免。

撰文 | 微胖

2020 年,韓國電影《寄生蟲》獲得奧斯卡最佳影片、最佳導演、最佳原創劇本和最佳國際影片獎,改寫了電影歷史。

導演奉俊昊在獲獎感言中說:「一旦克服了一英寸高的字幕障礙,你就會看到更多精彩電影。」

《寄生蟲》獲得最佳影片獎,成為奧斯卡歷史上第一個獲此獎項的非英語片。

早在《寄生蟲》之前,一些外語電影就衝破字幕障礙,在好萊塢主流市場獲得成功。但這並不影響字幕作為障礙的真實存在。

串流媒體之外,國際電影和電視劇仍然難以吸引觀眾。截至 2020 年,只有 12 部電影在 1,000 多家美國影院上映。《寄生蟲》之前,最後一部是 2006 年李連杰的《無畏》。

事實上,《寄生蟲》剛上映時,這位奧斯卡最佳影片獎得主只在三個影院上映。正如其成功所表明的那樣,一部出色的電影無論使用何種語言,都應該能夠吸引觀眾。然而,許多獲獎或提名的字幕電影很少能獲得 100 萬美元的票房。

李安的《臥虎藏龍》斬獲四項奧斯卡獎項,並創下1.28億美元的票房。

地球另一邊,全球最大電影市場中國的受眾不得不在字幕中消費不菲票價。目前,很多影院在進口片上,甚至不再排播國語版。

以近期火熱上映的《失控玩家》為例,筆者所在商圈所有電影院、所有場次均只提供英文版。

人類閱讀速度通常比聽力慢,有多少人天生喜歡字幕而不是配音呢?幾十年來,娛樂業一直試圖通過將聲音配音到電影、遊戲、廣告和電視節目中來尋找全球市場。但這是一個漫長而昂貴的過程,也伴隨著觀眾體驗脫節,甚至盜版橫行。

神經網路的興起正在悄然改變這一全球文化消費的傳統方式。機器想要一個「勇敢新世界」。所有語言都是「一等公民」,沒有一寸高的字幕,甚至沒有人類配音,你能像欣賞《長安十二時辰》一樣觀賞《東城夢魘》。最終,「最佳國際影片獎」可能會消失,奧斯卡簡單地成為一項無國界大獎。

01 誰在做大蛋糕?

技術的商業化崛起,始終離不開一個根本前提——市場。誰需要它?誰製造了需求?這個需求到底有多麼可觀?

需要譯製一定是因為存在一個廣大的非英語內容需求市場。在為非英語內容創造新的全球市場方面, Netflix 可謂居功至偉。要知道,在五到十年前,全球市場還沒有對非英語內容的需求。

成立二十多年、身經百戰的 Netflix 能有今天市場地位,當年遠征海外,功不可沒。公司從2011年開始海外擴張之路,2013年自制劇《紙牌屋》的巨大成功不僅讓公司更加堅定原創的戰略重要性,也認識到美國本土訂閱使用者增長的侷限性。Netflix 投入大量現金,一頭扎進本地語言的內容原創。

自制劇《毒梟》、英劇《王冠》、德劇《黑暗》、西班牙《紙鈔屋》成就「爆款」,葡劇《3%》、法劇《馬賽城》、日劇《火花》引發轟動,無一不表明海外市場受眾早已成熟,只是市場缺少適合他們的本土化內容。

目前,Netflix 原創內容中很大一部分都是非英語內容,超過60%付費使用者來自海外。公司在其2020 年第四季度的財報中宣佈,其近期訂閱使用者收益的絕大部分來自國外。。

Netflix 的商業模式——全球訂閱視訊點播(SVOD )只有在跨地區傳播內容時才真正有意義,而現在最大障礙之一就是本地化。

在說服觀眾克服字幕障礙去看外語片的這場運動中,Netflix也算鞠躬盡瘁。為了能更好地在海外發行,他們給平臺內容添加了28種語言字幕。

「我們看到,有越來越多的訂閱者在選擇超越國界和文化的電視電影節目。」Netflix的一名發言人曾告訴《紐約時報》。

這位發言人還指出,字幕並沒有阻礙好的內容在Netflix上被人喜愛和欣賞。例如,Netflix原創劇集《毒梟》既有英語場景也有西班牙語場景,而這部劇已經被續訂了一季又一季。

Netflix原創劇集《毒梟》

蛋糕不斷變大,眾多競品入局,Netflix迎來了更加激烈的競爭Round 2。美國主要串流媒體開始擴大內容製作投資力度,期望在新一波 SVOD 訂戶競爭中獲得優勢。其中不乏 HBO Max 、 Disney Plus 這樣的傳統巨頭,還包括 Apple TV Plus、亞馬遜Prime這些根本不差錢的科技大佬。

例如,迪士尼正在將其核心戰略從付費電視轉移,宣佈打算關閉 100 個國際電視訊道,並將內容遷移到 Disney Plus。

亞馬遜在 Prime 上的電視劇、電影和音樂的預算從 2019 年到 2020 年增加了 40% 以上。

不過,Netflix很清楚自己在非英語市場的先發優勢,也預見到海外使用者終將成為商業帝國的核心支柱(就像谷歌那樣),他們選擇「海外包圍美國本土」。用 Netflix 國際配音總監Debra Chinn的話說,「實際上是在創造新的觀眾群。」

這條路直接關係著未來的營收空間,配音工作也因此顯得尤為重要。過去幾年,他們一直在招募配音演員和製片,試圖建立一套工程化生產線。

一方面,旨在提升國際節目的英語版本品質,吸引那些可能對低質量配音感到厭煩的英語觀眾,提高全球3.71億英語母語者(其中,大多數生活在美國)對非英語系列內容的整體收視率。

配音內容對於美國或英國的電視觀眾來說是一個陌生的概念,除非你看中國的武俠片。有趣的是,市場分析公司 Statista 發現,59% 的美國成年人更願意觀看英語配音的外語電影,而不是帶字幕的原版電影。

在2019年的一次採訪中,Netflix 曾透露,熱門節目的配音版本更受歡迎。例如,85%的美國觀眾選擇《Rain》(《慘雨》)的配音版本而不是字幕;78%觀眾選擇了德國驚悚劇集《Dark》(《黑暗》)配音版;選擇西班牙《Money Heist》(《紙鈔屋》)配音版的有72%。

首部丹麥劇集慘雨

首部丹麥劇集《慘雨》

首部丹麥劇集慘雨

西班牙劇《紙鈔屋》

另一方面,Netflix 也希望將英語配音經驗推廣到更多語種配音中。根據Ampere Analysis資料,Netflix在大多數非英語地區播放的內容中,90%為外語內容組成,配音工作重要且艱鉅。

以歐洲為例。長期以來,節目的配音版本在歐洲的電視市場上司空見慣,那裡的節目經常跨越國界——這是一個蓬勃發展的行業,有自己的頒獎典禮,配音演員本身就很有名。這讓本地消費者更願意接受配音。

尤其是法國、西班牙和講德語的國家,配音是進入市場的首要條件。在德國,配音還變成了一個大產業,頂級配音演員每部電影能掙1.5萬至2萬美元。如果美國的一家主要發行公司想把片子成功打入德國市場,必須得配音。

配音在義大利也是一個非常成熟的市場。現在,義大利 99% 的電影和電視節目都是配音的。

近幾年,Netflix 在配音方面的投資以平均每年 25%到 35%的速度增長,配音內容消費的增速比投資更快,平均每年超過 120%。「金主」增加預算,一些從事本地化的大型工作室收入也隨之暴增。

最近,擁有Netflix、亞馬遜、蘋果等串流媒體大客戶的媒體本地化提供商 ZOO Digital 迎來有史以來最好的季度財報。從細分市場來看,本地化對業務收入貢獻超過 51%。對公司基於雲的配音服務的需求大幅飆升,配音收入增長了 50%,達到 900 萬美元。

另一個全球本地化工作室 BTI Studios 2010 年配音僅佔其收入的 3%,此後躍升至 61%,而字幕收入不到 40%。

ZOO Digital 認為,串流媒體熱潮對媒體本地化供應商來說是一個好訊息,因為字幕和配音在主要串流媒體平臺之間正在進行的觀眾爭奪戰中發揮著關鍵作用。隨著內容預算的增加,他們發現,買家越來越希望與能夠提供端到端服務的供應商合作。

最近,BTI Studios與另一本地化公司IYUNO Media Group 合併,以應對「通過啟用全球配音和字幕功能來滿足對本地化內容快速增長需求」,包括應用AI應對交付週期的變化。

02 配音的阿克琉斯之踵

Netflix 首席產品官 Greg Peters 將國際影片收視率的增加完全歸因於更好的配音。

什麼是好的配音?「作為一名配音演員,你能得到的最好讚美就是沒人意識到這是配的音,」在邦德系列電影中為丹尼爾·克雷格配音的德國Dietmar Wunder認為。

「我們的工作就是消失在原版後面,讓觀眾不會想起這一點。」

但是,大多數配音距離「不著痕跡」仍然遙遠。Scott Mann在2015年執導了由羅伯特·德尼羅主演的驚悚片《雙面劫匪》(Heist)後,被影片的一個配音版本驚得目瞪口呆。

影片中整段整段對話都經過了修改,以便使外語臺詞更接近於德尼羅的口型。拍攝期間,德尼羅會花費數週時間討論某一個場景,詢問角色會戴什麼樣的袖釦或穿什麼樣的襪子。然而,當影片進行配音時,他的表演卻受到了玷汙。

「這令人心碎。我們為劇本糾結了幾個月,爭論哪些臺詞應該說和應該怎麼說,然後卻看到它的一個外語版本,臺詞全被改了。一切都感覺糟透了。」

在現有技術和作業模式下,讓斯科特·曼心碎的結果幾乎無可避免。

國際發行公司收到ADR(全片剪輯完之後,把演員請回來重新給臺詞配音的技術處理方式)聲帶和最終語言聲帶後,會發給不同地區做譯製處理。

例如在中國,配音導演先看原片,翻譯將臺詞翻譯成中文文字。接著,口型員進行初步核對,根據外文文字長度、口型等調整中文翻譯。隨後,配音導演、配音演員以及翻譯一起看原片,分配角色,並根據演員配音習慣進行中文翻譯復對。

最好的配音經常會修改語言,以找到與演員嘴巴動作最接近的同步。比如,Hello,說成「你好」。可是,「llo」的英語發音可以拖音,為了保持口型一致性,「好」也要拖音,於是有了所謂「朗誦腔」的「你好」。

儘管了做了大量後期工作,演員的表演和配音之間還是會存在不匹配。不少中國觀眾也欣賞不了這種「朗誦腔」。

電子遊戲領域也是如此。很多時候,遊戲發行商只會在作品中針對英語同步角色口型,在為其他語言做本地化時會進行額外的配音。如果將一句對話從英語翻譯成法語,翻譯後的版本可能比原句長得多,通常的處理方式是加長動畫,以塞滿多出來的音訊時間。

除了技術手段,是否划算也是制約配音質量的重要成本因素。

一位動畫師需要花大約7小時才能做完單個角色在遊戲裡說1分鐘話的動畫。《賽博朋克2077》這樣一款含有大量對話的大型RPG,如果支持10種不同語言配音的口型同步,遊戲公司需要支付巨大人力和時間成本。

在美國,一部時長兩小時的電影配一種語言的花費可達15萬美元以上,大片通常被翻譯成12種語言,電視劇通常被配音成6到8種語言。所需時間和金錢並不划算。

以譯製「業界良心」《功夫熊貓3》為例。據說,中文配音用了8個月,夢工廠還特別設立了中文創作團隊,有中文編劇、導演等,他們按中國人說話的方式重新寫了一版接地氣的對白。中文版按照中文臺詞給每個角色重新做了口型和表情。

如此耗時耗力的操作,在不少進口大片上映基本實現準同步(有時甚至提前上映)的趨勢下,也只能停留在個案層面。

隨著後期譯製時間越來越緊張,很多時候,一部進口動畫片在中國的配音時間只有3-5天。據說,某位流量明星為《馴龍高手3》僅用了一天時間。粗糙趕工,只能是完美摧毀一部精美電影的原本內涵。

每集60分鐘的10 集劇目,Netflix 通常需要 16 周進行配音。再財大氣粗,公司也有戰略側重。

在日本市場,幾乎每個節目都帶有日文字幕,超過 40%被配音。宮崎駿和吉卜力工作室的精彩作品更是被添上 28 種字幕及 20 種配音。

除了日本,另外四個最大配音市場都在歐盟——法國,德國,義大利和西班牙,60%的外國內容均被配音。對於Netflix來說,用法語、德語、義大利語和西班牙等語言配音的內容還可以繼續輸送到拉丁美洲,非洲以及加拿大等其他市場。

但諸如俄羅斯,土耳其,觀眾僅佔 Netflix 使用者基礎的一小部分,愛沙尼亞人口僅百萬,目前很難以證明對他們大規模本地化投資的合理性。

最有意思的是印度市場。公司CEO 裡德·哈斯廷斯曾預言,Netflix 下一個 1 億使用者將來自印度。但印度使用 450 種語言,其中 ,23 種被認為是官方語言。由於Netflix的印度市場訂閱資料增長非常迅速,配音翻譯這一難關早晚都得攻克。

03 Deep Video Portraits 深度換臉

哪裡聚集了低效的密集勞動,哪裡就有被新技術革命的可能。

新冠疫情流行進一步加速了這一進程。Netflix 不得不在 2020 年推遲某些節目的本地語言版本,工作室關閉,配音演員被淘汰。

AI可以幫助彌合這些差距,即使工作室最終決定依靠真正的配音演員來製作最終版本。嗅覺靈敏的創業公司帶著深度學習技術,相繼入場。

和迪斯尼一樣,Scott Mann 也開始研究 Deepfake 變臉。Deepfake的一個基本假設是,如果有足夠多角度的 2D 照片,實際上可以創建一個完整的、連續的 3D 模型。

你可以用網上搜羅來的大量明星2D圖片訓練模型,教會AI創造出關於該明星的3D面部,通過疊加,替換掉目標視訊的人物臉部。

不過,只要幾秒鐘,大部分觀眾就可以察覺到視訊是偽造的。因為訓練資料是靜止圖片,當你將名人的臉貼到色情演員臉上後,容易出現眉毛不匹配,動作不穩等紕漏。

2018年,馬克斯普朗克資訊學研究所 Christian Theobalt 團隊在SIGGRAPH上展示了 Deep Vedio Portrait(DVP),可以重現近乎逼真的人類視覺效果。

系統會使用一系列人臉Landmarks重建人臉,這樣它就可以跟蹤、捕捉一些敏感部位(比如眉毛、鼻子、嘴巴等)的微妙動作,以便創造性地將這些微妙細節「轉移」到目標演員身上,讓其面部動作看起來和新發音時的表情一樣準確和同步。研究人員會使用一種面部表示方法來計算兩個視訊的面部參數。

為了更加逼真,他們還會稍微修改這些參數,進行渲染。這也是生成對抗網路(GAN)的用武之地。一個神經網路生成內容,而另一個拒絕或批准每項努力。目標是生成與目標視訊幀中的圖像一樣好的假圖像,以欺騙鑑別器網路。

只要大約兩千幀——相當於一分鐘的鏡頭——就足以訓練網路。

不過,目前也只有面部表情可以進行逼真的修改,DVP也無法處理變化太大的背景。

與Deepfake 採用2D圖片進行學習不同,訓練DVP 的是真人演員3D 面部動作。DVP不是換臉,而是面部特徵處理,猶如一場AI操縱的面部肌肉木偶戲。

DARPA 官員 Matthew Turek曾對外媒表示,那些能在當前 GAN 作品中檢測出微妙變化線索的方法,對DVP作品似乎不太有效。因為,它似乎完美地匹配了源演員和目標演員之間的整個面部和頭部運動。

除了經得起大熒幕挑剔的逼真效果,打動那些超負荷工作的視覺效果藝術家和預算緊張的好萊塢製片人的地方還在於價效比。製作迅速,價格便宜,特別是與完整翻拍電影的成本相比。

數字換臉在影視圈是很常見的事情,特效鏡頭的拍攝也歷經多年。在《本傑明·巴頓奇事》,幾乎在電影的每一幀中,布拉德·皮特的臉都被修改過的計算機圖形版本所取代。

人臉的計算機圖形編輯已經廣泛用於今天的故事片。一個很好的例子是《本傑明·巴頓奇事》。

不過,傳統特效鏡頭需要大量的後期製作,並且消耗巨大的資金成本,即使是幾秒鐘的片段,也需要人力物力的投入,通常還需要訓練有素的藝術家進行數週工作。

比如,特技替身演員會短暫地看向鏡頭,即使是短暫的一刻,也需要大量的後期製作,以確保螢幕上的人看起來就像他們應該做的那樣。

解決這些問題通常需要重新拍攝,或者是巧妙的計算機製圖和合成的結合,這些從來都不便宜。DVP展示瞭如何在未來更輕鬆地創造這種視覺效果。人們可以輕鬆編輯演員頭部位置和麵部表情,以改變攝像機角度或巧妙地改變場景構圖。

研究人員表示,AI不僅可以產生高度逼真的結果,而且與當今使用的手動過程相比,速度要快得多。

儘管技術還處於概念驗證階段,但鑑於其對視覺娛樂產業可能產生的顛覆性影響,發現了這份研究白皮書後,Scott Mann 決定成立 Flawless。

作為標榜開創新一代電影製作科學和創新的AI公司,公司產品介紹確實寫得有模有樣。目前網站上第一個(也是唯一一個)AI產品名為TrueSync,號稱世界上第一個使用AI以多種語言創建完美唇形同步視覺化的系統。

TrueSync 有一個所謂的性能保留引擎,就是關於演員的頭部3D模型。影像原作品涉及演員獨特表演風格的細節,比如皺眉和眼角低垂的表演神態,都可以被AI學習並捕捉到,完整保留下來。儘管演員的臉被替換了,但他們原始的細微表演將被保留並延續到目標臉上,以維持原有電影的質感與沉浸感。

技術自動生成與配音對話相對應的嘴唇動作。傑克·尼科爾森在《義海雄風》中與湯姆·克魯斯聊天的口型也幾乎與法語配音完美同步。

如果客戶需要斯嘉麗說中文,他們需要先將中文錄製成演員對話,就像傳統配音那樣,並將這些音訊和圖片發給Flawless。公司的系統會根據這些資料,並基於既有的斯嘉麗模型,計算斯嘉麗說中文時的獨特嘴部動作,創建斯嘉麗說中文的面部模型。最後,還需要公司數字效果藝術團隊進行潤色。

該公司在網站上分享的TrueSync 例子。

在Flawless 看來,對於想要保留原始演員陣容魅力的導演來說,該技術將是一種更經濟的方式。

獲得2020年奧斯卡提名的丹麥電影《Druk》(又譯作《酒精計劃》、《酩酊大醉》)在國內取得成功後,準備再由萊昂納多·迪卡普里奧擔任主角,為英語觀眾重新制作。這意味著6千萬美元的翻拍成本。

如果男主咖位在英語觀眾中號召力不足,可以找大腕翻拍(比如,好萊塢翻拍《無間道》)。但是,男主麥斯·米科爾森在英語世界的名氣並不低,電影表達的丹麥飲酒文化對於美國觀眾也不陌生。如果使用Flawless技術,在保留電影原汁原味的同時,還能以更低的成本(比如,翻拍成本的2%)觸達到更多英語觀眾。

04 聲音藝術

Flawless 的技術還做不到其名字承諾的那樣,100%完美無瑕,但已經相當不錯。像迪士尼這樣的公司也在努力提高 deepfake 技術的質量,以便它很快滿足好萊塢的需求。

雖然深度換臉技術目前還沒有拿得出手的商業成功案例,但是,語音AI已經在遊戲視訊領域驗證了商業成功。

備受期待的科幻RPG《賽博朋克 2077》推出的第一個月,全球銷量就超過1370萬份。據說,預購玩家數量最多的國家是中國。這與中文字地化出色表現不無關係。當你玩這款遊戲時,會發現說普通話的角色確實就像在說普通話。

可響應 10 種語言的配音也被視為營銷的重要一環。在遊戲製作商 CD Projekt Red 看來,在遊戲裡,玩家最直觀的感受還是配音。通過為玩家提供本地化體驗,能拓展新的零售市場。

遊戲技術支持方 Jali Research 的技術可以檢測形成每個單詞的各個聲音,並相應地為角色的面部設置動畫。

正如 Scott Mann 受頂會論文啟發創辦Flawless,CD Projekt Red 也是在SIGGRAPH上找到技術繆斯。

這款遊戲本地化的技術支持來自一家加拿大創業公司Jali Research。他們開發了一套工具,利用 AI 將音素準確對映到目標人物嘴形上,使角色令人信服地以不同語言進行對話。該技術可以追溯到公司技術長Pif Edwards博士期間的一項研究。

攻讀電腦科學博士之初,Edwards 想專注於面部動畫,但最終關注的是語音,因為「結果表明,當人們表達時,他們幾乎總是在說話。」

由於對當時可用的處理語音和動畫的工具並不滿意,他決定構建自己的工具。2016年,Pif Edwards向SIGGRAPH提交論文,討論了一種用於表達發音嘴型同步的模型——JALI,合著者還包括一位奧斯卡獲獎動畫師兼導演。

利用心理語言學的發現,他們試圖弄清楚影響面部運動的數百個變數 ,並創建了一個網路(VisemeNet)來預測嘴形在目標發音中狀態。所謂「JALI」(Jaw And Lip Integration),也就是「顎」和「唇」的組合,論文稱,這兩個解剖特徵解釋了視覺語音的大部分變化。

就《賽博朋克 2077》配音而言,他們結合了機器學習和基於規則的AI。

第一階段主要使用機器學習。假設有一個人說「Hello」的音訊檔案,「H」在哪裡開始和停止?「e」、「l」和 「o」聲音在哪裡?他們將這些音素資訊標記為特定語言,然後使用這些資料訓練機器,教會機器識別某人說話時實際發出的聲音。

給機器投餵從未見過的對話,系統會預測聲音之間的邊界,以及每個音素的長度。

第二階段主要進行動畫製作,他們使用傳統的基於規則的AI。這是一個更簡單的「如果,那麼」系統,它只是根據特定輸入執行被告知的操作,可以用來確定根據發出的聲音需要生成什麼嘴型。

與大多數人的直覺不同,嘴與特定字母或發音的形狀,並非直接一一對應。比如,「en」的發音,往往取決於其周圍的字母,而不是該音素的發音口形。如果後面有「e」,最後可能發出「n」或「noo」的音。

所謂規則,是指無論說哪國語言,對相同聲音做出的面部表達時遵循的一些規則。這意味著,需要針對不同語言打造語言模型,但無須就不同語言另行打造動畫模型,所有語言的動畫元件是一樣的,可以節省大量時間和成本。

事實上,除了效果逼真,與關鍵幀和動作捕捉動畫等更昂貴的傳統方法相比,工作室可以相對較低的成本擴展面部動畫。

Jali Research 的本地化不僅僅是對口型,甚至還考慮了面部表情,令人信服。

激進致力於語音藝術的還有一家矽谷YC孵化的以色列公司Deepdub 。如果說 Flawless 的技術暫時保留了配音演員,Deepdub 乾脆用演員原聲演繹本地語言,儘管他從未說過這些臺詞。

據報道,在其內部分享過的一個視訊中,摩根弗里曼說英語的視訊可以切換到配音模式,在這種模式下,弗里曼本人在說西班牙語——不是通過人工配音演員,而是他自己的沙啞的聲音。

開發這個系統需要結合不同的技術,包括深度學習、信號處理、獨特的演員語音建模、神經風格遷移和 NLP等。其中,深度學習會學習音軌資料中聲音的特徵,包括音高、音色、速度、間隔和語調,並記錄下來,將其用於新的臺詞。

公司也正在嘗試匹配唇形同步或唇形運動,進一步提升視聽效果。

創始人是兩位電影狂熱愛好者,他們希望客戶僅需按下選擇按鈕,就能輕鬆實現多語言內容本地化,背後一切操作都交給AI。

儘管公司尚未通過公開可用的產品證明自己,但其宣傳背後的潛力顯而易見。最近,Deepdub 還成功邀請到前 HBO Max 首席內容官Kevin Reilly加入公司顧問委員會,幫助將其 AI 配音技術引入好萊塢。

如果 Deepdub 的AI被大規模部署,將顛覆工作室、內容創作者和製作人的傳統遊戲規則。Kevin Reilly 認為,這幾乎不可避免。他甚至預測自己不會再重返電視高管隊伍。

比如,可能會導致配音行業的員工失業,傳統ADR都可能不需要了,因為合成聲音可以替代演員,後期製作時就不必返回工作室重新錄製某些臺詞。

現在,一部電視劇可能需要 14 到 16 周的時間配音,而 Deepdub 的技術則需要 4 到 6 周,並計劃進一步壓縮到不到兩週的時間,成本還比人工配音低得多。

由於可以顯著加速配音週期,縮短本土與其他地區發佈之間的窗口期,這些新興技術還能有效防止盜版。這一點,已經在遊戲市場得到驗證。隨著CD Projekt Red將更多精力放在翻譯和本地化上,越來越多的波蘭玩家願意花錢購買正版遊戲。

目前,對於這些AI公司來說,與好萊塢主要企業合作,通過技術獲利非常重要。

每個看過展示的人都說,「哇,我能說法語。」當Flawless向演員們展示經過AI配音後的表演時,他們都被驚呆了。Flawless 正與電影公司進行接洽,也在與最大串流媒體平臺之一展開合作。

Deepdub也開始嚴肅起來。他們達成了一項協議,使用其AI語音合成技術為影片《Every Time I Die》 配上拉丁美洲西班牙語和巴西葡萄牙語,該電影目前正在英國Netflix上播放給美洲觀眾。

05 特效與偽造

當萊昂內多·迪卡普瑞奧和他的女友站在(泰塔尼克號)船頭時,攝影機鏡頭向後拉出了足足兩三英里遠,而且做得天衣無縫。

電影業使用特效,但沒有人意識到類似的技術本質上也是一種偽造。

幾十年來,追求技術的魔力(超越從前影片效果的努力)似乎成為至高無上的目標。這種對真實的操縱導致了一種新的真實——超級真實(Hyper-reality)。無論是電腦合成、數字影像處理、仿真三維動畫,還是人工智慧,電影製作者對超級真實的探尋已經到了不可逆轉的地步。

現在,我們可以輕鬆生成一張非常逼真的人臉。下一個問題是,我們應該如何處理這些生成的人臉?面部處理會在電影業引起爭議。一些演員在看到他們的表演改變時,會如何反應?如何讓這項技術合法且合乎道德?如何看待一個正在消解的現實?

可以肯定的是,無論是匿名的 Redditor、Adobe 之類的大玩家,還是學術界本身,所有渠道都在先進的音訊和視覺處理方面取得了進展,而且,沒有人承諾會踩剎車。研究界非常擅長公開和廣泛分享技術,權力迅速民主化幾乎不可避免。AI特效只會變得更好、更便宜、更快。

電影導演和製片人對這些技術也表現出越來越大的興趣。這種情況與 2000 年代使用逼真的計算機圖形時的情況類似。多虧了AI,「突然每個人都想做點什麼。」

我們正處於一個任何人都可以製作可信視訊的時代,任何人都可以聲稱視訊是偽造的。這是不可避免的,社會必須適應這種變化,儘管可能會很痛。

相關文章