機器人領域出了個「RoboGPT」:一個模型處理不同感官輸入,來自Google|開源

Pine 發自 凹非寺

懶得打掃房間,那就直接交給機器人來做吧。

想吃零食了,機器人也能幫你服務,薯片和紙巾都給你貼心備好。

而且,這個機器人只需要一個單一的預訓練模型,就能從不同的感官輸入(如視覺、文字等)中生成命令,來執行多種任務

要知道,在以往機器人執行命令時,處理這些不同的任務時, IO 規範、神經網路體系結構和目標等都是不一樣的。

現在,這個問題Google解決了,他們研究出了適用於機器人領域的Transformer模型:RT-1,甚至被人戲稱為RoboGPT。

,甚至被人戲稱為RoboGPT
圖源:Twitter@Jim Fan

更重要的是,RT-1程式碼已開源

具體原理

先來整體看看RT-1,它執行任務主要依靠的就是:7+3+1

所謂7,是指它的手臂有7個自由度,分別是x,y,z,滾動,俯仰,偏航,手爪開口。

3是指基礎運動的三個維度,即在地面運動時的x,y,偏航。

1則指RT-1的整體控制,即切換這三種模式:控制手臂,基礎運動,或終止任務。

圖源:Everyday Robots

而RT-1執行任務時,它的底層邏輯還是純粹的監督式學習,要做好監督式學習,就得具備兩個條件:

豐富的資料集強大的神經結構

首先是資料集,RT-1是在一個大規模的、真實世界的機器人資料集上進行訓練的,可以用4個數字來概括:13萬、700+、13、17,分別表示:

  • 包括13萬個片段;

  • 涵蓋700多個任務;

  • 使用了13個機器人;

  • 歷時17個月。

然後就是RT-1的結構了,它執行任務的過程如下圖所示。

具體來說,圖像和文字先通過ImageNet預訓練的卷積神經網路(EfficientNet)進行處理。

在這其中,為了確保文字和圖像同路能夠很好地被整合在一起,RT-1還使用了FiLM層,這是一種通過語言嵌入來調節視覺活動的經典技術。

這樣一來,RT-1便能很好地提取與手頭任務相關的視覺特徵。

然後這些視覺特徵會被Token Learner模組計算成一組緊湊的token傳遞給Transformer,這使得機器人的推理速度能夠提高2.4倍以上

接下來Transformer會來處理這些token併產生離散化的操作token,而操作token便是一開始說的那個7+3+1了。

通過控制手臂,基礎運動以及模式便能夠執行任務了。

在執行任務的整個過程中,RT-1還會以3Hz的頻率執行閉環控制和命令操作,直到產生終止操作或用完預先設置的時間步驟數。

不過話說回來,既然這個機器人能夠執行多工,那它執行通用任務時的能力到底如何呢?

研究人員分別測試了RT-1對干擾物數量(第一行)、不同背景和環境(第二行)以及真實場景(第三行)的魯棒性。

並與其他基於模仿學習的基線進行比較,結果如下圖所示(第一項為訓練期間的表現)。

顯而易見,在每個任務類別中,RT-1都明顯優於以前的模型。

研究團隊

這個機器人來自Google,研究團隊的成員也比較龐大,分別來自三個研究團隊:

首先是Robotics at Google,它是Google Research下的一個細分領域團隊,目前正在探索「如何教機器人可轉移的技能」。

並且他們也在不斷公開其訓練的資料,以幫助推進這一領域的最先進水平。

然後是

然後是Everyday Robots,它是X-登月工廠的一個細分領域團隊,和Google團隊一起工作,目前他們正在製造一種新型機器人,一個可以自學的,可以幫助任何人做任何事情的通用機器人。

還有就是Google Research,它是Google公司內部進行各種最先進技術研究的部門,他們也有自己的開源項目,在GitHub公開。

項目地址

項目地址:

https://github.com/google-research/robotics_transformer

論文地址:

https://arxiv.org/abs/2212.06817

參考連結:

https://robotics-transformer.github.io/

相關文章