AI看了70000小時《我的世界》視訊學會人類高級技巧,網友:它好痛苦

金磊 發自 凹非寺

AI看70000小時《我的世界》視訊,能達到一個什麼水平?

以「鑽石鎬」(diamond pickaxe)為例,這個東西高級人類玩家要快速點選20分鐘、約2.4萬個動作才能製作完成。

而現在的AI,已然能夠輕鬆hold住了。

哐哐找到各種材料,一步步進行各種合成:

這就是來自OpenAI號稱最強的《我的世界》AI——MineDojo

它還是世界第一個能夠打造「鑽石工具」的AI。

不僅如此,像打造「石鎬」、「簡易避難所」都不在話下:

當然,在《我的世界》裡其它的常規操作,在MineDojo手裡也遊刃有餘。

例如游泳、狩獵、支柱跳等等:

至於OpenAI為什麼要讓AI學會這些技巧,研究人員Bowen Baker表示:

很大程度上是因為我們在模擬人類上網時的行為。

MineDojo是如何煉成的?

正如我們剛才提到的,MineDojo的「煉成之道」,就是看視訊

這些視訊內容都是人類玩家發佈在油管上,展示自己如何玩《我的世界》的。

然後在看完70000小時視訊之後,這個AI就學會了如何執行遊戲中的各種任務。

這種方式一般被稱為模仿學習(imitation learning),就是訓練神經網路通過觀察人類行為來學習。

雖然此前也有眾多相關研究,但仍有一些問題尚待解決。

「貼標籤」就是其中之一。

傳統方式就是在每一個動作上貼上標籤:這麼做會發生這件事、那麼做會發生那件事。

但這種方式可想而知的後果,就是工作量太大了,導致可以用來訓練的資料較少。

因此,OpenAI的研究人員便另闢蹊徑,想出了不一樣的研究思路——視訊預訓練(Video Pre-Training,VPT):

這個方法的核心思路,就是訓練另一個神經網路,專門來處理繁瑣的「貼標籤」的工作。

為此,研究人員先是找來一批玩家讓他們先玩《我的世界》,當然,娛樂的同時也要記錄下鍵盤、滑鼠的點選次數。

如此一來,研究人員先是得到了2000小時帶標記的一些資料。

在這基礎上,他們便開始訓練一個模型,來匹配鍵盤、滑鼠動作和螢幕上的結果——

例如在什麼情況下點下滑鼠,會讓遊戲中的角色揮舞斧頭。

把這個模型訓練出來之後,就要引入70000小時沒有標籤的視訊了;在它的加持下,龐大且可用的資料集就誕生了。

再接下來,就是回到之前模仿學習的思路,用這些新資料來訓練AI。

雖說模仿學習可以說是強化學習的一個分支,但OpenAI的研究人員發現,VPT訓出來的AI,能夠完成單靠強化學習無法完成的任務。

比如製作木板並把它們變成一張桌子(大約需要970個連續動作)。

不僅如此,研究人員還發現,若是把模仿學習和強化學習做個結合,那麼效果是最好的。

而由《我的世界》這次的研究拓展開來,OpenAI的研究人員還表示:

我們的AI還可以執行其它任務,例如滑鼠瀏覽網站、預訂航班或線上購物。

《我的世界》已經成為AI技術試驗田

其實OpenAI這次研究的亮點,刨除VPT方法本身,其研究的兩大要素——《我的世界》視訊,也成為人們熱議的焦點。

《我的世界》這款遊戲的一大特點就是開放性,玩家可以在這個虛擬世界裡做出許多意想不到的傑作。

不同於以往強化學習訓練AI的遊戲環境,大多都是以「輸贏」為結果而終止了,但往往AI後期訓練出來的能力可能是超越這種「限制」的。

但《我的世界》就沒有「輸贏」之說了,AI可以在這裡盡情的發揮。因此OpenAI研究人員表示:

《我的世界》是訓練AI很好的試驗田。

而這也贏得了NeurIPS的認可——MineDojo拿下了今年這個頂會的一個獎項。

至於這項研究第二個熱議點「視訊」,正如索尼執行董事Peter Stone所述:

視訊是一種潛力巨大的培訓資源。

但似乎OpenAI的研究人員還不滿足此次的成果,他們認為,收集100萬小時《我的世界》的視訊,會讓它們的AI變得更加出色。

當然,這項研究也引來不少網友們的圍觀,也有一些比較有意思的討論:

人們想讓AI有意識,但它們有意識之後才發覺,自己需要被迫看這麼久的視訊,有夠累的。

論文地址

論文地址:

https://openai.com/blog/vpt/

參考連結:

[1]https://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/

[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ

[3]https://www.youtube.com/watch?v=fJn9B64Znrk

相關文章

如果馬斯克有罪,誰來制裁馬斯克?

如果馬斯克有罪,誰來制裁馬斯克?

問大家一個問題,如果馬斯克有罪,誰能來制裁馬斯克呢? 啊?你問馬斯克犯了啥罪? 不,這只是個假設,馬斯克沒有犯罪,馬斯克只是很火而已。 今年...

2023,元宇宙「脫虛向實」

2023,元宇宙「脫虛向實」

在希望與爭議中,元宇宙渡過了關鍵的一年。 從國際局勢,到新冠疫情,過去三年「新常態」的衝擊,讓外部環境充斥著不確定性,也令這個時代的人們處於...