過去數年,隨著神經網路、基於強化學習的自我博弈、多智慧體學習和模仿學習等通用機器學習理論的突破,AI 智慧體的決策能力實現了飛躍式發展。
可以看到,不管是谷歌、微軟、IBM 等全球科技巨頭,還是國內一眾 AI 龍頭企業,在學術研究和產業落地上,它們的關注焦點都在從智慧感知向智慧決策過渡。「決策 AI」成了領域內的必爭之地。
今年 5 月,谷歌旗下的機構 DeepMind 發佈 Gato,這款全新的 AI 智慧體能夠在「廣泛的環境中」完成 604 項不同的任務。Gato 的誕生,再次刷新了單智慧體的能力上限。當然,關於 AI 決策能力的探索不會僅限於此,如果讓海量智慧體在一個接近真實世界的開放決策環境中「狹路相逢」,它們會做出何種判斷和選擇,又會怎樣分工合作、競爭呢?
近日,由超參數科技發起,麻省理工學院、清華大學深圳國際研究生院,以及知名資料科學挑戰平臺 AIcrowd 聯合主辦的「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」落幕。在這場比賽中,我們發現了一些進行新探索的可能性。

複雜環境中的多智慧體博弈
近年來,多智慧體環境已經成為深度強化學習的一個有效研究平臺。目前,強化學習環境要麼足夠複雜,但限制條件太多,普適性不強;要麼限制條件很少,但過於簡單。這些問題限制了更高複雜度任務的創建,也很難激發出多智慧體更高階的決策能力。
2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 實習期間開發了 Neural MMO,他借鑑大型多人線上遊戲(MMO),模擬出一個龐大的生態系統,系統中包含數量不等的智慧體,並讓它們在持久、廣闊的環境中競爭。行業人士普遍認為,「這個模擬相當有趣」。與過往著眼於技術水準的 AI 遊戲對戰環境不同,Neural MMO 涉及到了 AI 的長期判斷和選擇,更考驗智慧體的決策能力。
「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」使用的正是上述環境。主辦方表示,選擇 Neural MMO 主要基於兩點:一是 Neural MMO 類似於開放世界生存遊戲,本身有一個自運轉系統,並且定義了採集、攻擊、生存等基本機制,二是它支持海量 AI 共存、互動,並湧現策略。無論在學術界還是工業界,這種環境都不多見。

Neural MMO環境
在這場比賽中,每局對戰都包含 16 支隊伍,每支隊伍包含 8 個智慧體,這些智慧體小分隊要在 128×128 的地圖上進行自由對抗。根據主辦方的設計,每個智慧體小分隊要達成覓食、探索、競爭、打怪四項成就。這意味著每個環境裡有 128 個智慧體同時決策,每支隊伍裡的 8 個智慧體要為了不同的目標進行有效的合作分工。
在這種情況下,每個智慧體都要發揮自己的強項,必要時,為了團隊能夠獲得「最後的勝利」,一部分智慧體還要學會「主動送人頭」。鑑於環境裡有多個智慧體在同時學習,智慧體們不僅需要考慮自己期望得到何種獎勵,還要考慮對手可能會採取什麼策略。再加上每一局對戰都要完成四項任務,層層設置之下,每個智慧體面臨的「抉擇」都有更高的決策複雜度。
讓海量智慧體「卷」起來
對一場學術性質的比賽來說,除了找到好問題,還要有足夠多的好選手。為此,主辦方從賽事規則、工具、賽事支持等方面對 Neural MMO 挑戰賽進行了全面最佳化。
在工具層面,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」升級了提交系統,讓第一次成功提交到返回結果的時間從原來的兩個多小時減少到十分鐘;此外,挑戰賽還提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,參賽者只需要跑一遍程式碼,就可以完成第一個提交;在 Baseline 中,使用者只需要訓練兩天,就可以完成 Stage 1 0.5 的勝率,運行訓練四天,就可以獲得 Stage 1 0.8 的勝率。
這些設計幫助參賽者在初始階段迅速地熟悉規則,並以此節省大量時間。利用省下來的時間,參賽者們可以將思考重點放在定義智慧體在 Neural MMO 環境中的決策方式上,比如進行獎勵信號的設計等。
在賽制上,這場 Neural MMO 挑戰賽採取了 PvE 與 PvP 結合的方式。在 PvE 階段,每個 Stage 的內建 AI 難度會逐漸增加,參賽者由此感受到「梯度」。Stage 1 的難度是最低的,包含了一些基於簡單規則編寫的開源腳本。之後,Stage 2 的難度會變得更高,主辦方基於經典的 PPO 演算法對內建 AI 進行訓練,並加入自我博弈(Self-Play)的訓練機制。到了 Stage 3,智慧體的綜合能力進一步升級,選手們面對的已經是高度團結的競爭對手隊伍。
在 PvE 階段獲,成就分達到 25 的隊伍即可晉級;但在 PvP 階段,難度上升,對戰對象從內建 AI 變為其它參賽選手隊伍。
讓 8 個智慧體組團完成任務,是合作博弈中的一個經典問題。如果說在 PvE 階段的前兩個 Stage,依靠單打獨鬥還能取得一些成績,那麼隨著環境內建 AI 不斷變強,再到對手從環境內建 AI 變為真實世界中的參賽團隊,出戰的智慧體小分隊也需要隨之完成脫胎換骨般的進化,以此去理解怎樣達成「團隊最優決策」。
基於上述改進,不同水平的參賽者都能在這場賽事中找到適合自己的參賽目標。但同時,要想獲得頂尖名次,智慧體的綜合決策能力要能經受住考驗,這就要求選手在智慧體的演算法設計上具備更深刻的思考。
RL 演算法選手,後來者居上
經過三個月的激烈角逐,兩支來自業界的隊伍脫穎而出,斬獲了本屆挑戰賽的冠亞軍。有趣的是,這兩支隊伍均採用強化學習演算法,且都是在最後一個月才參賽。
冠軍團隊 LastOrder 提到,相較現有的其他多智慧體環境,MMO 有更豐富的內容,例如生存、戰鬥、升級、團隊 PK、隨機地圖等。與其他同類比賽不同的是,Neural MMO 挑戰賽給參賽者的規則限制很少,這也為強化學習演算法的應用提供了廣闊的發揮空間。
NeuralNoob 是亞軍獲得者,他認為 Neural MMO 最明顯的特點在於支持的海量智慧體,本場比賽的設置為 128 個,但實際上可以增加到上千或者更多。「它是一個多工的環境,每個智慧體需要在必要的時候改變策略各司其職,具有更大的研究價值。」
在比賽過程中,LastOrder 設計了分散式強化學習訓練框架 Newton,該框架具備高度靈活性及可擴展性。

他們採用獎勵設計等方法間接鼓勵智慧體做出合理的行為。在設計合理的獎勵、神經網路結構等之後,他們觀察到,深度強化學習訓練後的智慧體自行湧現了相互配合的行為。
「啟發式演算法的優點是思路更加簡明,反饋更加直接。相比之下,強化學習需要更長的訓練時間,以進行網路結構和參數的調整。」LastOrder 表示,「但強化學習演算法所能達到的能力上限更高,更具探索的價值。」
NeuralNoob 同樣採用強化學習演算法,整體方案是 ppo 演算法加自我博弈 ( self-play) 訓練機制,所有智慧體的訓練都將 8 個智慧體作為一個團隊來訓練,value 部分則會用到整個團隊的共享表徵,並按照 CTDE 的方式訓練。
在 LastOrder 看來,MMO 這個平臺還存在更多想象空間:例如它可以引入更多遊戲要素,甚至可以變成一個開放的線上遊戲,促進 Human in the loop 等領域的相關研究。對此,NeuralNoob 持相似看法,他認為可以有更多樣的裝備供智慧體選擇,並設置一個安全區,智慧體到達安全區後不能發動攻擊,同時可以和敵方智慧體進行裝備交易。
在 NeuralNoob 的設想裡,甚至可以讓智慧體臨時和敵方智慧體進行合作,聯手擊殺一些強大的內建 AI,而同敵方智慧體的合作將會讓 MMO 更符合真實世界中合作與競爭共存的關係。
NeuralNoob 認為,這些是強化學習目前比較難勝任的地方,強大如 openai five,也是通過手寫規則來實現出裝路線,因為設計到裝備選擇的訓練樣本佔比勢必會很小,但依賴鏈卻很長。
智慧決策的「今天」和「未來」
更長遠地看,Neural MMO 環境提供了一個廣闊、高自由度的學術框架,可以推動一些種群層面的行為研究,比如如何高效組隊,它甚至能衍生出社會學、經濟學方面的概念研究,這些都是現階段相關領域內瓶頸仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」 在學術研究層面的意義也更加凸顯。
任何關於決策智慧的學術研究,人們都希望它能在真實的產業場景中發揮價值,包括但不限於商業遊戲、量化交易。在現實生活中,決策的代價可能會非常大,這是因為,一方面,決策會直接導致結果,所以決策水平的質量高低,跟結果帶來的收益直接相關;另一方面,決策所設定的環境相當複雜,而想要在真實世界中做預演,成本也會非常高。
在學界、業界對智慧決策的探索過程中,Neural MMO 無疑有希望成為一個很好的試驗載體。但現實中的智慧決策往往更加複雜,有著更長的決策鏈條。如何進一步仿真模擬,讓 Neural MMO 更大程度上地接近現實決策環境,這需要整個行業進行長期探索。
據了解,超參數科技將依託 2022 NeurlPS 會議舉辦新一輪 NMMO 挑戰賽。相較於「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」,新賽事增加了交易系統,豐富了裝備品類、多職業分工以及毒圈機制,這使得它本就開放的環境變得更加貼合現實決策環境。同時,持續豐富的智慧體之間合作及競爭的互動方式也大大增加了決策多樣性、策略深度以及合作競爭的可能性。
在Neural NMMO系列挑戰賽中,智慧體與環境中的內建AI、敵方智慧體,以及隊友之間產生了大量互動,形成實時反饋,在動態的決策環境中達成最優決策,研究結果推動智慧決策技術的發展。不遠的將來,智慧決策技術將成為數字化轉型的加速器,推進能源、物流、工業等產業領域的研究落地和成果轉化,為更多「不確定」的真實決策場景提供相對「確定」的答案。