誰說阿爾法狗們只會下棋玩遊戲?DeepMind用它們給油管視訊做壓縮

選自DeeMind部落格

作者:The MuZero Applied Team

機器之心編譯

機器之心編輯部

在保證視訊質量相似的前提下,DeepMind 的 MuZero 可以降低大約 4% 的位元率。

2016 年,DeepMind 推出了第一個能夠在圍棋中擊敗人類的智慧體——AlphaGo。在之後的幾年裡,其繼任者 AlphaZero 和 MuZero 繼續向通用演算法進發,用更少的預定義知識掌握了更多的遊戲。例如,MuZero 在沒有被告知規則的情況下就掌握了象棋、圍棋、日本將棋和雅達利遊戲。

然而,說來說去,這些應用還是沒能脫離遊戲的範疇,能不能用它們來解決現實世界的問題一直是外界關注的焦點。

昨天,DeepMind 在部落格中公佈了一個好訊息:他們的 MuZero 已經向現實世界邁出了第一步,展現出了在最佳化視訊壓縮質量方面的潛力。相關細節呈現在一篇預印版論文中。

論文連結:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

在這項研究中,DeepMind 的研究者和 YouTube 展開了合作,一起探索 Muzero 在視訊壓縮領域的潛力。分析人士預測,串流媒體視訊將佔據網際網路流量的絕大部分。為了節省頻寬,視訊在傳輸之前就必須進行壓縮。這樣一來,如何將壓縮後的視訊畫質、流暢度等損失降到最小就成了視訊廠商關注的重要問題,也是一個有望用強化學習解決的問題。DeepMind 的 Muzero 可以在保證視訊質量相似的前提下降低大約 4% 的位元率。

大多數線上視訊依賴於編解碼器在視訊的源頭對其進行壓縮或編碼,然後通過網際網路將其傳輸給觀眾,最後再解壓或解碼播放。這些編解碼器為視訊中的每一幀做出多個決定。經過幾十年的手工工程,這些編解碼器已經實現了一定程度的最佳化,在視訊點播、視訊通話、視訊遊戲和虛擬現實等多個領域得到了應用,但還有很大的最佳化空間。

由於強化學習特別適用於像編解碼器那樣的順序決策問題,所以 DeepMind 就在這個問題上展開了探索。

他們的首個研究對象是被 YouTube 和其他串流媒體服務廣泛使用的 VP9 編解碼器(特別是開源版本 libvpx)。與其他編解碼器一樣,使用 VP9 的服務提供商需要考慮位元率。位元率是指發送每幀視訊所需的 1 和 0 的數量,是服務和儲存視訊所需的計算量和頻寬的主要決定因素,影響視訊載入所需時間、解析度、緩衝和資料使用等很多指標。

在編碼視訊時,編解碼器使用之前幀的資訊來減少未來幀所需的比特數。

在 VP9 中,最佳化位元率最直接的方法是藉助速率控制模組中的量化參數(QP)。這個參數決定了每一幀要應用的壓縮級別。給定一個目標位元率,視訊幀的 QP 按順序決定,以實現整體視訊質量最最佳化。直觀地說,我們應該為複雜場景分配較高的位元率(較低的 QP),為靜態場景分配較低的位元率(較高的 QP)。QP 選擇演算法解釋了視訊幀的 QP 值如何影響其他視訊幀的位元率分配和整體視訊質量。強化學習對於解決這類序列決策問題特別有幫助。

對於 VP9 處理的每一幀視訊,MuZero-RC 取代 VP9 的默認速率控制機制,決定應用的壓縮級別,從而在較低的位元率下獲得相似的質量。

MuZero 結合了搜尋能力和學習環境模式並做出相應計劃的能力,在各種任務中實現了超越人類的表現。這種方法在大型的組合動作空間中特別有效,使其成為解決視訊壓縮速率控制問題的理想候選方案。

然而,要讓 MuZero 處理這一現實世界的問題,還需要解決一系列全新的問題。例如,上傳到 YouTube 等平臺的視訊集在內容和質量上存在差異;任何智慧體都需要泛化至不同的視訊,包括部署後的全新視訊。相比之下,棋盤遊戲往往只有一個已知環境。而在視訊任務上,許多其他的指標和約束會影響最終的使用者體驗和位元率節省程度,比如 PSNR(峰值訊雜比)和位元率約束。

為了應對這些挑戰,DeepMind 為 Muzero 創建了一種名為「自我競爭(self-competition)」的機制,它通過比較智慧體當前的性能和歷史性能,將視訊壓縮的複雜目標轉化為一個簡單的 WIN/LOSS 信號。這使得一組豐富的編解碼器需求轉換成了一個簡單的信號,再由智慧體進行最佳化。

通過學習視訊編碼的動態變化和確定如何最好地分配比特,MuZero 速率控制器(MuZero-RC)能夠在不降低質量的情況下降低位元率。QP 選擇只是編碼過程中眾多編碼決策中的一個。雖然幾十年的研究和工程已經產生了高效的演算法,DeepMind 還是設想了單一的演算法可以自動學習作出這些編碼決定,以獲得最佳的率失真權衡。

使用先前 QP 啟發式方法編碼的視訊

使用 MuZero-RC 編碼的視訊。藉助 MuZero-RC,每個視訊都能在降低所需的位元率的情況下獲得相似的質量。實驗表明,在大量不同的 YouTube 實時視訊中,位元率平均降低了 4% 。

除了視訊壓縮,這項研究的意義還在於他們邁出了將 MuZero 應用於現實世界的第一步,證明了強化學習智慧體可以用於解決現實世界的問題。DeepMind 表示,通過創建具有一系列新能力的智慧體來改進跨領域的產品,他們可以幫助各種計算機系統變得更快、更自動化。公司的長期願景是開發一個單一演算法,用於最佳化數以千計的跨越各種領域的現實世界系統。

原文連結:https://storage.googleapis.com/deepmind-media/MuZero/MuZero%20with%20self-competition.pdf

相關文章

最大裸聊網站翻車後,108億條資料被公開

最大裸聊網站翻車後,108億條資料被公開

眾所周知,資料洩露是一件非常嚴重的事情,特別是成人網站的資料。這裡機哥說的,可不是成人網站上那些視頻外洩。大夥可以把求資源的手,稍微往下放一...

暗網不是匿名的嗎?為什麼他們還被抓?

暗網不是匿名的嗎?為什麼他們還被抓?

也許是因為我以前寫過暗網的緣故,總有人問:暗網怎麼進? 暗網,黑暗的網,這名字一聽就有點撩撥人心底層的邪惡感,就像「夜店」,夜晚的店,一聽就...

通訊巨頭愛立信,百年沉浮正弄潮

通訊巨頭愛立信,百年沉浮正弄潮

19世紀中葉,電報業務在歐洲大陸逐漸開始普及。 1853年,北歐小國瑞典動用「海盜基金」(不是海盜的錢,是政府用來打海盜的錢),架設了自己的...

超級詳細的基站天線總結

超級詳細的基站天線總結

天線作為無線通訊的眼睛,在5G時代更加釋放光彩。我入門的第一個設計就是設計一款用於海事衛星通訊的天線。現在又回過頭來,把拉下的課程撿起來。 ...