拋開元宇宙,我們來聊聊音視訊技術的未來

1872年的某一天,在美國加利福尼亞州的一個酒店裡,兩個年輕人發生了激烈的爭論。

其中一人認為,奔跑的馬在躍起的瞬間,四蹄是騰空的。而另一人則認為,馬奔跑時,始終有一個蹄子是著地的。

來自英國的攝影師麥布里奇得知此事後,決定通過實驗來驗證誰對誰錯。於是,他藉助24臺相機,連續拍攝了24張照片,並由此創造了人類歷史上第一個「視訊」。

不久後,1877年,著名發明家愛迪生在他的「圓筒留聲機」上,錄下了他親自朗讀的《瑪麗有隻小羊羔》的歌詞。

這短短數秒的聲音,成為了人類歷史上第一條音訊。由此,人類正式進入了音視訊時代。

█ 音視訊技術的發展和演進

眾所周知,人有五感,分別是視覺、聽覺、嗅覺、味覺和觸覺。通過五感,我們才能感知外部物理世界的存在,享受真實生活的美好。

在人類漫長的歷史長河中,文字、圖畫是記錄和傳遞資訊的主要方式。直到前面提及的音視訊出現,才將人類記錄資訊的方式,升級到了一個更高的維度,更加具象化。

音訊和視訊誕生早期,只能儲存在膠片和磁帶上,容量有限,也不方便保存和運輸。

電影膠片

直到20世紀70-80年代,隨著數字錄音和攝像技術的不斷成熟,唱片公司和電影公司開始採用數字方式錄製原始素材,並進行後期製作,掀起了音視訊技術的革新浪潮。

在數字技術的支撐下,音視訊剪輯變得更加方便快捷。CD、MD、DVD等數字載體的出現,不僅讓音質畫質大幅改善,還極大地擴充了儲存容量,減少了空間佔用。

世界上第一款CD播放器,索尼CDP-101(1982年)

到了90年代,個人PC的規模普及,以及網際網路的爆炸式發展,再次刺激了音視訊技術的飛躍,並將人類全面推向了多媒體時代。

那一時期,網際網路先民們瘋狂地上傳和下載mp3、wav格式的音樂,bmp、jpg格式的圖片,還有rm、mov、avi格式的電影。他們不再侷限於純文字的互動方式,而是全面轉向了QQ、MSN這樣的多媒體通訊工具。

與此同時,基於音視訊技術發展起來的遊戲產業,更是將人們對數字世界的感官體驗,推向了更高的層級。人們開始有了對數字虛擬空間生活的早期憧憬和迷戀。

「模擬人生」遊戲截圖

進入21世紀後,隨著3G/4G、光纖寬頻的高速發展,以及摩爾定律下CPU、記憶體、硬碟能力的進一步躍升,音視訊技術再獲突破,幾乎可以說是日新月異。

以視訊的清晰度為例,一路從早期的標清(320p/480p),發展到高畫質(720P/1080P),再到超高畫質(4K/8K),並最終催生了前所未有的人機互動模式——VR/AR(虛擬現實/增強現實)。

VR/AR的出現,第一次讓人類感受到什麼叫做沉浸式體驗。我們與數字世界的互動,從單向非同步,變成了雙向同步。我們向真正的數字空間生活,邁出了一大步。

2020年,騰訊提出「全真網際網路」。2021年,元宇宙火遍出圈。這些都是音視訊技術飛速發展的產物。

視訊編解碼技術的不斷演進,資訊通訊技術的快速迭代,極大地改善了人們的視訊觀看體驗,徹底激發了人們對平行數字空間的渴望和嚮往,認為這是一種可以實現的夢想。

人們不再滿足於使用音視訊技術傳遞真實世界的影像,而是更希望將真實世界的一切元素都「捕捉」下來,轉換成無數的比特,存放在硬碟裡。這些比特,將成為人們構建數字虛擬世界的素材。

█ 音視訊技術的需求變化

元宇宙到底能不能成真,我並不知道答案。但是,音視訊技術的需求趨勢,卻是顯而易見的。歸納而言,就是兩點:平民化、產業化

近年來,智慧手機的普及,專業攝錄設備的降價,讓越來越多的普通使用者有機會進行音視訊內容創造和生產。

短視訊業務的爆發,以及全民直播的興起,更是將視訊平民化推向了新的高潮。

網紅直播帶貨

幾乎在一夜之間,我們就進入了「人人看視訊,人人拍視訊」的時代。很多優秀的up主或主播,能夠通過優質的內容,賺取鉅額收益,刺激了人們將視訊作為謀生手段的熱情。

在這樣的情況下,音視訊技術需要進一步降低門檻,讓更多的人能夠更容易地生產內容。

2020年,突如其來的新冠疫情,也間接推動了音視訊產業的發展。我們需要藉助虛擬空間的延伸,彌補疫情導致的物理空間上的限制。

學生居家學習,企業居家辦公,產生了大量的網課、會議視訊流量。根據運營商的統計資料,截至2020年底,視訊在全網資料流量的佔比已接近70%。

遠端會議

除了學習和辦公之外,產業將視訊的應用進行了延伸,發掘了更多的創新場景。

例如,藉助視訊識別技術,可以對產品進行質量檢驗,可以對園區進行車輛管理,可以對工地進行安全隱患識別。

再例如,藉助VR/AR技術,可以進行人員崗前培訓,可以進行遠端手術,可以進行遠端參觀,也可以進行遠端設備巡檢和故障處理。

也就是說,視訊不再僅僅是娛樂工具,而是變身為生產力工具。

各個領域和垂直行業,都希望藉助音視訊技術,升級和改造現有生產場景,提升效率,降低成本。

企業希望充分利用音視訊技術,但是,也面臨著對技術門檻和資源投入的擔憂,望而卻步。

我們現在每天都在討論數字化轉型,其實,「音視訊+垂直行業」,就是企業數字化轉型的一個極佳入口。行業音視訊,即將進入爆發期。

█ 音視訊技術的未來方向

剛才說的是外部需求的變化。接下來,我們看看音視訊技術是如何應對變化的。

簡而言之,就是三點:演算法極致化功能智慧化服務平臺化

音視訊的性能指標提升,一直沒有停止前進的腳步。

尤其是視訊方面,因為高畫質顯示技術的驅動,使得視訊的解析度不斷增長。除了解析度之外,視訊的幀率要求,也在增加。

還有VR視訊,因為含有三維的時間和空間資訊,所以冗餘更高,資料體積更大。

想要實現超高畫質高幀、VR/AR視訊應用的普及,僅僅依靠增加硬碟容量和通訊頻寬是不夠的,必須儘可能壓縮視訊的體積。這就離不開視訊壓縮演算法的持續改進

目前,全球視訊編碼標準分為多個派系。除了大家熟悉的H.26X系列(ITU-T主導)之外,還有MPEG系列(ISO/IEC主導),AVS系列(國內AVS組織主導),以及免費開源的AV1等。

來自知乎使用者:甜草莓

這些標準,形成了開放的競爭關係,不斷探索著視訊演算法的極限。它們是視訊技術向前發展的基礎。

除了硬指標提升之外,音視訊的另一個發展趨勢,就是全面智慧化時代的到來

換言之,就是AI人工智慧技術不斷被引入到音視訊領域,幫助提升音視訊內容的生產效率,同時創新出更多的玩法。

首先看看音訊。

AI+音訊,可以實現對音訊信號的智慧識別、編創。具體識別對象,可以是歌曲中的鼓點、節奏點。

AI可以針對音樂的強度、情緒、風格、情感等維度,對音樂進行理解和打標籤。在編創時,AI可以將音樂中人聲、伴奏、吉他、鋼琴等音軌進行智慧分離。

AI還可以自動對歌詞進行續寫,將一首流行歌曲,改編成一首Rap(說唱音樂)。

再看看視訊

再看看視訊。

做過視訊的人都知道,視訊內容創作的大部分工作量,都集中在視訊內容剪輯和渲染上,既費時又費力。

相比於傳統的人工剪輯,基於演算法和學習,AI可以對視訊素材進行「智慧增強」、「智慧剪輯/拆條」。

「智慧增強」,則是通過AI技術,進行視訊圖像降噪、色彩增強,改善畫面細節,提升人眼的主觀效果。

「智慧剪輯/拆條」,則是智慧識別和分析視訊原始素材中人物的動作、事件和表情,自動定位精彩片段,將其提取出來,完成剪輯、配樂等工作,變成精彩視訊集錦。

「AI+音訊+視訊」的融合,用途更為廣闊。Up主可以藉此實現視訊智慧配樂、音樂MV和vlog的自動創作,大幅降低作品的生產難度。

除了內容創作以外,AI還可以用於視訊修復(舊電影修復)、視訊增強和行業視訊應用。

例如,騰訊的多媒體實驗室,通過深度學習敦煌壁畫病害資料,形成自動識別並添加圖示的一整套演算法,打造出了高效的AI壁畫病害識別工具。

騰訊與敦煌研究院合作的文物VR遠端會診

音視訊技術的第三個發展趨勢,是服務形式的平臺化

正如前面所介紹的,音視訊技術的應用難度很高,一般個人和企業很難獨立玩轉。於是,現在很多音視訊技術服務商,開始通過視訊雲、視訊中臺等方式,對個人和政企使用者進行音視訊能力服務。

這些平臺集成了開放的API接口,方便上層應用開發商調用,開發軟體。平臺本身,又結合了雲的能力,擁有無限的算力,可以支撐使用者的需求。

專業服務商們提供的技術和平臺,涵蓋了智慧採集、資料處理和渲染展示等多個環節,有利於降低垂直行業對音視訊業務的開發門檻,讓更多的企業能夠從容地使用音視訊業務,享受音視訊紅利,加快數字化轉型。

█ 結語

現在,沒有音視訊,人們的快樂會減少一半。

未來,沒有音視訊,企業的效率會下降一半。

正如前面所說,未來,音視訊技術將進入爆發期。尤其是工業製造、金融證券、文旅教育等垂直領域,音視訊將進入高速增長的階段。音視訊的商業模式,將發生很大的變化。音視訊業務的應用場景,也將大量出現。

希望音視訊能夠帶來更多的創新,帶給我們更多的驚喜。