強化學習先驅 Richard Sutton:將開發新型計算智慧體

DeepMind 和阿爾伯塔大學聯合成立的人工智慧實驗室未來幾年要研究什麼?

2017 年,DeepMind 在加拿大的 Edmonton 成立了其首個英國之外的人工智慧研究實驗室,並和阿爾伯塔大學大學緊密合作,成立了「DeepMind Alberta」,由強化學習先驅 Richard S. Sutton、阿爾伯塔大學教授 Michael H. Bowling、助理教授 Patrick M. Pilarski 領導。

從左到右:Richard Sutton、Michael Bowling 和 Patrick Pilarski

現在,三位領導者聯合發表論文闡述 DeepMind Alberta 在未來一段時間內關於人工智慧的計劃,即 Alberta Plan。Alberta Plan 是一項面向計算智慧的 5-10 年長期規劃,旨在填補我們目前對計算智慧的理解空白。隨著計算智慧的發展,它必將深刻影響我們的經濟、社會和個人生活。

DeepMind Alberta 致力於理解和創建與複雜世界互動並預測和控制其感官輸入信號的長壽命計算智慧體。智慧體的初始設計要儘可能簡單、通用和可擴展,並能與複雜的世界長期互動。

這就要求智慧體具備多種功能:為了控制輸入信號,智慧體必須採取行動;為了適應變化世界的複雜性,智慧體必須不斷學習;為了快速適應,智慧體需要用一個學習模型來規劃世界。

論文內容主要包括兩部分:

一是描述了 DeepMind Alberta 對人工智慧研究的願景及其關於智慧的計劃和優先工作;

二是描述這一願景可能的展開路徑以及 DeepMind Alberta 將探索的研究問題和項目。

論文地址:https://arxiv.org/abs/2208.11173

圍繞智慧體進行設計

在 Alberta Plan 的研究願景中,智慧體從其環境中接收觀察和獎勵信號,並試圖通過其動作控制這些信號。這是高級強化學習的標準視角。

本文智慧體的設計遵循標準或者說是基礎智慧體的設計,如圖 2 所示,其被認為是具有 AI、心理學、控制理論、神經科學和經濟學的「智慧智慧體通用模型」。該基礎智慧體包含四個元件:感知元件能夠更新智慧體對過去經驗或狀態的總結,之後這個更新會被其他元件使用;反應策略元件包括智慧體所做的策略,依據此,智慧體做出動作反應,並根據獎勵更新動作。感知和主要策略協同工作,將觀察對映到動作。每個策略都有一個對應的價值函數,所有值函數的集合構成值函陣列件

基礎智慧體的第四個元件是

基礎智慧體的第四個元件是轉換模型元件,該元件從觀察到的行為、獎勵和狀態中學習,而不涉及觀察。智慧體學習完,轉換模型就可以採取一種狀態和一種動作,並預測下一種狀態和下一種獎勵。

一般來說,該模型可能在時間上是抽象的,這意味著智慧體不採取動作,而是利用選項,如利用策略和終止條件等,並預測選項終止時的狀態以及累積的獎勵。

轉換模型用於設想智慧體採取動作 / 選項後可能出現的結果,然後由價值函數評估以改變策略和價值函數本身,這個過程稱為規劃。規劃是連續的且在時間上是統一的,智慧體中的每一個 step 都會有一定數量的規劃,也許是一系列小的規劃,通常來講規劃不會在一個時間步內完成,因此與智慧體 – 環境互動相比速度會很慢。

規劃是一個連續的過程,在後臺非同步運行,運行過程不會干擾前三個元件。在每一個 step 中,新的觀察都必須經過感知處理以產生狀態,然後由主要策略處理以產生該時間步的動作。價值函數必須在前臺運行,以評估每個時間步的新狀態以及採取前一個動作的決定。

AI 原型路線圖

AI 中一個永恆的難題是「部分和整體」的關係。一個完整的 AI 系統必須建立在有效的演算法之上,但問題是,在組裝出一個完整的系統之前,我們無法確切地知道需要哪些核心演算法。因此必須同時處理系統和元件演算法,也就是部分和整體的工作。但這樣做產生的結果是浪費精力,但又必須執行。

本文的 AI 原型路線圖包括以下 12 個步驟:

步驟 1. 表示 I:具有給定特徵的連續監督學習。在泛化到更復雜的設置之前,智慧體先在最簡單的設置下運行並解決問題。步驟 1 解決的問題是對錶示的連續學習和元學習,例如如何在長時間連續學習的同時還能快速、穩健和高效地學習。

步驟 2. 表示 II:發現監督特徵。步驟 2 的重點是創建和引入新特徵。主要關注的問題包括如何從現有特徵構建新特徵,以最大化新特徵的潛在效用和實現該效用的速度,同時不犧牲臨時性能。

步驟 3. 預測 I:連續 GVF 預測學習。重複上述兩個步驟以進行順序實時設置。在這一步驟中首先使用給定的線性特徵,然後使用特徵查找。新特徵不僅包括非線性組合,還包括舊信號和跡線的結合。

步驟 4. 控制 I:連續 actor-critic 控制。重複以上三個步驟進行控制。

步驟 5. 預測 II:平均獎勵 GVF 學習。這裡的主要思想是將對 GVF 的一般預測學習演算法擴展到平均獎勵。

步驟 6. 控制 II:連續控制問題。這裡需要一些連續問題來測試用於學習和規劃的平均獎勵演算法。目前有 River Swim、Access-control Queuing 等演算法。

步驟 7. 規劃 I:為平均獎勵標準開發基於非同步動態規劃的增量規劃方法。

步驟 8. Prototype-AI I:具有連續函數逼近的基於模型的單步強化學習(RL)。Prototype-AI I 將基於平均獎勵 RL、模型、規劃和連續非線性函數逼近。通過結合一般連續函數逼近,Prototype-AI I 將超越過去基於 Dyna 的工作,但仍將限於單步模型。換句話說,Prototype-AI I 將是一個集成架構。

步驟 9. 規劃 II:搜尋控制和探索。在規劃 II 步驟中,我們將開發了規劃控制。規劃被視為具有函數逼近的非同步值迭代。控制規劃過程的早期工作

將包括優先掃描(sweeping)和小型備份,並且研究團隊已經進行了一些嘗試。

步驟 10. Prototype-AI II:STOMP 進程。研究團隊以一種特殊的方式引入時間抽象,即子任務(SubTask)、選項(Option)、模型(Model)和規劃(Planning )——STOMP 進程。其中,規劃的選項成為反饋循環的一部分,以評估所有早期步驟。

步驟 11. 原型 – AI III:Oak。Oak 架構是 Prototype AI 2 的一個小修改,引入了一個可選鍵盤。鍵盤的每個鍵都引用了基於子任務的選項來實現相應的功能。

步驟 12. 原型 – IA:智慧放大。一個智慧應用 (IA,intelligence applification) 的演示,其中原型 – IA 2 智慧體可以同時兼顧速度與決策能力。

更多內容請查看原論文。

相關文章

從此,Google 再無 Brain

從此,Google 再無 Brain

世界上最好的 AI Lab,是怎麼走向失敗的? 作者 | Founder Park AI Labs 正在捲土重來,產業界比以往幾十年都更加重...