內容一覽:強化學習是多學科領域的交叉產物,其本質是實現自動決策且可做連續決策。本文將介紹 DeepMind 最新研發成果:擴大強化學習應用範圍的通用演算法 DreamerV3。
關鍵詞:強化學習 DeepMind 通用演算法
1 月 12 日,DeepMind 官方Twitter發文,正式官宣 DreamerV3,這是首個能在遊戲「我的世界」(Minecraft) 中不參考人類資料,就能從頭開始收集鑽石的通用演算法,解決了 AI 領域中的又一重要挑戰。

DeepMind 在Twitter官宣 DreamerV3
強化學習擴展成問題,發展還需通用演算法
強化學習使得計算機可以通過互動解決某一任務,如 AlphaGo 在圍棋比賽中戰勝人類,OpenAI Five 在 Dota 2 中戰勝業餘人類玩家。

OpenAI Five 在比賽中戰勝人類玩家
研發團隊與人類玩家合照
然而,要想將演算法應用於新的應用場景,如從棋盤遊戲轉到視訊遊戲或機器人任務,就需要工程師不斷開發專門的演算法 (specialized algorithms),如連續控制、稀疏獎勵、圖像輸入以及 spatial environments 等。
這要求大量的專業知識和計算資源來微調演算法,極大阻礙了模型的擴展。創建無需調優就能學習掌握新 domain 的通用演算法,成為擴大強化學習應用範圍、解決決策問題的重要途徑。
由此,由 DeepMind 和多倫多大學聯合研發的 DreamerV3 應運而生。
DreamerV3:基於世界模型的通用演算法
DreamerV3 是一種基於世界模型 (World Model) 的通用和可擴展的演算法,能在固定超參數的前提下,應用於廣泛域 (domain),比專門的演算法更出色。
這些 domain 包括連續動作 (continuous action) 和離散動作 (discrete action),視覺輸入和低維輸入,2D 世界和 3D 世界,不同的資料預算、獎勵頻率和獎勵尺度等。

DreamerV3 通用演算法與專門演算法性能對比
DreamerV3 由 3 個從回放經驗 (replayed experience) 中同時訓練,且不共享梯度的神經網路組成:
1、world model:預測潛在動作的未來結果
2、critic:判斷每種情況的 value
3、actor:學習如何使有價值的情況成為可能

DreamerV3 的訓練過程
如上圖所示,world model 將 sensory input 編碼為一個離散表徵 zt。zt由一個具備 recurrent state ht的序列模型預測得出,並給出動作 at。input 被重構為學習信號 (learning signal) 進而 shape 表徵。
actor 和 critic 從 world model 預測的抽象表徵 trajectory 中學習。
為了更好地適應跨域任務,這些元件需要適應不同的信號強度 (signal magnitudes),並在其目標中穩健地平衡 terms。
工程師在超過 150 個固定參數的任務上對 DreamerV3 進行了測試,並與文獻中記載的最佳方法進行比較,實驗表明,DreamerV3 對於不同 domain 的任務,均具備較高通用性和可擴展性。

基準概覽
所有 agent 都是在 NVIDIA V100 GPU 上訓練
DreamerV3 在 7 個基準測試中都取得了優異成績,並在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。
然而 DreamerV3 仍然具備一定的侷限性,例如當 environment steps 在 1 億以內時,演算法並不能像人類玩家一樣,在所有場景中都撿到鑽石,而是偶爾撿到。
完整論文詳見:
https://arxiv.org/pdf/2301.04104v1.pdf
站在巨人的肩膀上,回顧Dreamer家族發展史
一代目:Dreamer
發佈時間:2019 年 12 月
參與機構:多倫多大學、DeepMind、Google Brain
論文地址:https://arxiv.org/pdf/1912.01603.pdf
演算法簡介:
Dreamer 是一個強化學習 agent,可以僅通過 latent imagination 從圖像中解決 long-horizon 任務。
它基於模型預測的反向傳播,來利用 world model 實現高效的行為學習。在 20 個極具挑戰性的視覺控制任務中,Dreamer 在資料效率、計算時間和最終性能方面均超過了當時的主流方法。

Dreamer 與當時主流方法的性能比較
Dreamer 繼承了 PlaNet 的資料效率,同時超過了當時最好的 model-free agent 的漸近性能 (asymptotic performance)。5×106個 environment step 後,Dreamer 在各個任務中的平均性能達到了 823,而 PlaNet 僅為 332,最高的 model-free D4PG agent 在 108步之後為 786。
二代目:DreamerV2
發佈時間:2020 年 10 月
參與機構:Google Research、DeepMind、多倫多大學
論文地址:https://arxiv.org/pdf/2010.02193.pdf
演算法簡介:
DreamerV2 是一個強化學習 agent,可以從 world model 緊湊隱空間 (compact latent space) 的預測中學習行為。
注:該 world model 使用離散表徵,並且與策略分開訓練。
DreamerV2 是第一個通過在單獨訓練的 world model 中學習行為,在 Atari 基準的 55 項任務中達到人類水平的 agent。在相同的計算預算和 wall-clock time 情況下,DreamerV2 達到了 2 億幀,超過了頂級 single-GPU agents IQN 及 Rainbow 的最終性能。
此外,DreamerV2 也適用於有連續動作的任務,它學習了一個複雜的類人型機器人的 world model,只通過像素輸入就解決了站立和行走問題。

玩家在 Atari 基準 55 個遊戲的正則化中位數得分
Twitter網友評論區帶頭玩梗
對於 DreamerV3 的誕生,不少網友也在 DeepMind Twitter留言區抖起了機靈。

解放人類,再也不用玩「我的世界」了。

別光顧著玩遊戲了,乾點正事兒吧!@DeepMind 和 CEO Demis Hassabis

「我的世界」終極 BOSS 末影龍瑟瑟發抖中。
近年來,遊戲「我的世界」已成為強化學習研究的一個焦點,圍繞在「我的世界」中進行鑽石收集的國際競賽已經舉辦多次。
在沒有人類資料的情況下解決這一挑戰,被廣泛認為是人工智慧的一個里程碑,因為在這個程序生成的開放世界環境 (open-world environment) 中,獎勵稀少、探索困難、時間跨度長,這些障礙的存在使得先前的方法都需要基於人類資料或教程。
DreamerV3 是第一個從 0 開始在「我的世界」中完全自學收集鑽石的演算法,它使得強化學習的應用範圍進一步擴大,正如網友們所說,DreamerV3 已經是個成熟的通用演算法了,該學會自己掛機升級打怪,跟終極 BOSS 末影龍對線了!