輕鬆完成700多條指令、成功率達97%!Google開源機器人領域transformer

Google機器人團隊等在機器人領域構建了一個多工 transformer 模型,顯著改進了對新任務、環境和對象的零樣本泛化。

我們知道,機器學習(ML)多個子領域(如 NLP 和 CV)的最新重大進展通過一種共享的通用方法實現,該方法充分利用大規模、多樣化資料集以及有效吸收所有資料的表達模型。儘管已經有各種嘗試將這種方法應用於機器人技術,但機器人還沒能利用到高性能模型。

構成挑戰的因素有幾個。首先缺乏大規模和多樣化機器人資料,這限制了模型吸收廣泛機器人經驗的能力。資料收集對於機器人技術來說成本高昂且具有挑戰性,這是因為資料集管理需要工程量大的自主操作或者使用人類遠端操作收集的演示。其次缺乏可以從此類資料集中學習並有效泛化的高表達性、可擴展且速度足夠快的實時推理模型。

為了解決這些挑戰,Google機器人團隊等提出了 Robotics Transformer 1 (RT-1)。這是一種多工模型,可以 tokenize 機器人的輸入和輸出動作,從而在運行時實現高效推理,使實時控制成為可能。

RT-1 模型在包含 130k 個 episode 的大型真實機器人資料集上進行訓練,該資料集涵蓋了 700 多項任務,使用 Everyday Robots (EDR) 的 13 臺機器人在 17 個月內收集而成。資料集中展示的一組高級技能包括拾取和放置物品、打開和關閉抽屜、將物品放入和取出抽屜、將細長的物品直立放置、敲倒物體、拉出餐巾紙和打開罐子。

  • 論文地址:https://robotics-transformer.github.io/assets/rt1.pdf
  • 項目地址:https://github.com/google-research/robotics_transformer

該團隊對模型和訓練集中的許多設計選擇進行了仔細評估和消融實驗,分析了 tokenization、動作表示和資料集組合的影響。與現有技術相比,RT-1 可以顯著改進對新任務、環境和對象的零樣本泛化。RT-1 可以以 97% 的成功率執行 700 多個訓練指令,並且可以泛化到新的任務、干擾因素和背景。

RT-1 吸收了大量資料,包括涉及多工、對象和環境的機器人軌跡,實現了更好性能和泛化能力。

最後,該團隊將 RT-1 程式碼開源,希望為未來擴大機器人學習的研究提供寶貴的資源。

RT-1 模型概覽

RT-1 建立在一個 transformer 架構上,該架構從機器人相機中獲取瞬時圖像以及以自然語言表達的任務描述作為輸入,並直接輸出 tokenized 動作。RT-1 的架構類似於針對具有因果掩蔽的標準分類交叉熵目標訓練的 decoder-only 序列模型。RT-1 的主要功能包括圖像和動作 tokenization 以及 token 壓縮。

圖像 tokenization。該團隊通過在 ImageNet 上預訓練的 EfficientNet-B3 模型傳遞圖像,然後將生成的 9×9×512 空間特徵圖展平為 81 個 tokens。圖像 tokenizer 以自然語言任務指令為條件,並使用初始化為身份的 FiLM 層在早期提取與任務相關的圖像特徵。

動作 tokenization。機器人的動作維度包括手臂運動的 7 個變數(x、y、z、翻轉、俯仰、搖擺、打開夾具)、3 個基本運動變數(x、y、搖擺)以及一個在控制臂、控制 base 或終止 episode 三種模式之間切換的額外具體變數。每個動作維度被離散化為 256 個 bins。

Token 壓縮。RT-1 自適應地選擇圖像 tokens 的軟組合,這些組合根據它們對使用元素級注意力模組 TokenLearner 學習的影響進行壓縮,使推理速度提升 2.4 倍以上。

RT-1 架構、資料集和評估概覽圖

RT-1 架構、資料集和評估概覽圖。

實驗和結果

為了更好地理解 RT-1 的泛化能力,該團隊在三個基準上進行了實驗:Gato、BC-Z(與 RT-1 參數量相同)和 BC-Z XL,並通過四個類別進行比較。

  • 在所見到的任務上的表現;
  • 在沒見過任務上的表現:在訓練集中,機器人的技能和對象是分開看到的,但以新穎的方式結合在一起;
  • 魯棒性:在有干擾(有 9 個干擾,此外還有遮擋情況)、改變背景(換個新廚房、光照不同等)上的任務表現;
  • 長情景:在真實廚房中執行 SayCan 類型的自然語言指令。

RT-1 在四個類別的比較中都大大超過基線,表現出極強的泛化性和魯棒性。

RT-1 與基線性能對比

RT-1 與基線性能對比。

整合異構資料來源

為了進一步挖掘 RT-1 的性能,該團隊還將訓練另一個機器人的資料用來訓練 RT-1,目的有兩個:(1) 測試模型在新資料上是否保持其在原始任務上的性能;(2) 觀察模型在新的以及不同資料上泛化能力。

從多個機器人那裡收集資料,用來訓練 RT-1。

結果表明,RT-1 能夠通過觀察其他機器人的經驗來獲得新技能。特別是,當 RT-1 同時使用來自 Kuka bin-picking 資料和 EDR 資料進行訓練時,準確率達到 39%。比僅使用 EDR 資料訓練時的 22% 準確率提高了近 2 倍。

當 RT-1 僅在 Kuka bin-picking 資料上進行訓練,然後在 EDR robot bin-picking 資料上評估時,準確率為 0。

SayCan 任務

SayCan 任務

RT-1 的高性能和泛化能力可以通過 SayCan 實現遠距離、移動操作任務。SayCan 演算法是Google在今年提出的,在這個演算法中,Google讓機器人充當語言模型的「手和眼睛」,而語言模型提供有關任務的高級語義知識。

該團隊在兩個真實的 Kitchen 中進行了評估,Kitchen2 構成了一個比 Kitchen1 更具挑戰性的泛化場景。由結果可得,SayCan 與 RT-1 在 Kitchen1 中實現了 67% 的執行成功率,優於其他基線。在 Kitchen2 中,SayCan 與 Gato 以及 SayCan 與 BCZ 的性能下降,而 RT-1 沒有出現明顯的下降。

下面的視訊展示了 PaLM-SayCan-RT1 在多個真實廚房中執行長期任務的示例。

參考連結:

https://ai.googleblog.com/2022/12/rt-1-robotics-transformer-for-real.html

相關文章

ChatGPT 的「神功」,是如何煉成的?

ChatGPT 的「神功」,是如何煉成的?

最強對話式 AI,站在巨人的肩膀上。 AIGC 在這幾個月成了一個大熱的話題。 頗有些風水輪流轉的感覺,如同年初大火特火的 web3 一樣,...

Transformer,ChatGPT 幕後的真正大佬

Transformer,ChatGPT 幕後的真正大佬

ChatGPT的背後 ChatGPT紅得發紫,強得讓人類心悸。 但在它的背後,還隱藏著一位真正的大佬。 可以說,與它相比,ChatGPT其實...