Google複用30年前經典演算法,CV引入強化學習,網友:視覺RLHF要來了?

機器之心編輯部

模型預測和預期使用之間存在錯位,不利於 CV 模型的部署,來自Google等機構的研究者用強化學習技術的獎勵函數,從而改善了計算機視覺任務。

ChatGPT 的火爆有目共睹,而對於支撐其成功背後的技術,監督式的指令微調以及基於人類反饋的強化學習至關重要。這些技術也在逐漸擴展到其他 AI 領域,包括計算機視覺(CV)。

我們知道,在處理計算機視覺中的複雜輸出時,成功的主要標準不在於模型對訓練目標的最佳化程度,而在於預測能力與任務的吻合程度,即模型在預期用途上的表現效果。

為了追求這種一致性,有研究者在模型架構、資料、最佳化、取樣、後處理等方面進行了一些改進。例如,在物體檢測任務中,研究人員使用了 NMS(non-maximum suppression )、基於集合的全局損失(set-based global loss)以及改變輸入資料來獲得在測試時具有改進行為的模型。雖然這些方法帶來了顯著的收益,但它們往往只對特定任務有用,僅僅是間接地對任務風險進行了最佳化。

不僅 CV,包括自然語言處理(NLP)、強化學習(RL)等領域也在廣泛研究這一現象。在這些領域中,對於目標不太明確的任務,如翻譯或生成摘要,制定最佳化目標非常困難。在處理這類問題時,一種流行的方法是學習模仿例子的輸出,然後進行強化學習,使模型與獎勵函數保持一致。使用這種方法,NLP 領域產生了令人興奮的結果,該方法使用大型預訓練語言模型和由人類反饋定義的獎勵來處理原本難以指定的任務。

此外,同樣的方法被廣泛用於圖像字幕任務中,其中 CIDEr(Vedantam 等人 2015 年提出)被用來作為獎勵。儘管如此,據了解,獎勵最佳化以前還沒有在(非文字)計算機視覺任務中進行過探索。

近日,Google大腦團隊的研究者在論文《Tuning computer vision models with task rewards》中證明了,使用 REINFORCE 演算法(Williams 於 1992 提出)來調整(Tuning)具有獎勵函數的預訓練模型可以開箱即用地用於各種計算機視覺任務

其實許多關於強化學習任務的研究都會提及 Williams 的 REINFORCE 演算法,可見這個演算法的重要性。可以說 REINFORCE 演算法是策略梯度乃至強化學習的典型代表。

論文地址:https://arxiv.org/pdf/2302.08242v1.pdf

圖 1 展示了一些關鍵結果,主要包括目標檢測、全景分割和圖像著色的獎勵最佳化帶來的定量和定性改進。該研究所提出的方法在處理各種 CV 任務上簡單而有效,證明了它的多功能性和適應性。儘管本文主要採用評估指標形式的獎勵,但這些初步結果顯示了該方法用來最佳化計算機視覺模型也不失為一種有效途徑,這些模型具有更復雜和更難指定的獎勵,例如人的反饋或整體系統性能。

Twitter網友對這篇文章給了一個比較全面的總結,即本文實現的功能是使用 RL 調整預訓練視覺模型。研究的動因是受到 LLM 強化學習成功的啟發;其效果是在目標檢測、全景分割等方面性能大幅提升。並表示,這項研究可能是實現視覺 RLHF (Reinforcement Learning from Human Feedback)的有效途徑。

圖源:https://twitter.com/johnjnay/status/1627009121378598912

獎勵

在不喪失泛化性的情況下,該研究將 CV 任務描述為學習一個函數的過程,該函數將輸入 x(即圖像)對映到輸出 y = [y_1, y_1,……, y_n](文字 token 序列、bounding box 序列等)。該研究旨在學習以 θ 為參數的條件分佈 P (y|x, θ),使獎勵函數 R 最大化。用抽象的公式來形容,就是本文要解決以下最佳化問題。

問題有了,接下來就是怎麼解決了,本文分兩步走:首先用最大似然估計對模型進行預訓練;然後使用 REINFORCE 演算法對模型進行 Tuning 。下面我們看看這兩步的具體過程:

最大似然預訓練

首先使用最大似然原理估計參數 θ 並捕獲訓練資料的分佈。實現這一目標可採用梯度下降演算法,該演算法通過最大化訓練資料的 log-likelihood

來實現。演算法 1 和圖 2 描述了 MLE(最大似然估計)最佳化步驟,這是訓練模型最常用的方法。完成這一步將得到 MLE 模型。

REINFORC 演算法將獎勵最大化

REINFORC 演算法將獎勵最大化

為了更好的最佳化 MLE 模型以適應任務風險,還需要最大化獎勵函數。對於給定輸入 x,該研究利用 REINFORCE 演算法來估計對給定 x 期望獎勵的梯度,公式如下所述:

演算法 2 提供了偽程式碼,圖 3 說明了該過程:

實驗結果

實驗結果

接下來我們看看本文提出的方法在視覺任務上的表現。

全景分割

如下表 1 所示,Tuning 過程顯著改善了 MLE 模型。視覺檢查(visual inspection)後的結果表明,Tuning 後的模型在避免不連貫預測方面更好,特別是對於小尺度物體,可參見圖 1。

目標檢測

目標檢測

表 2 顯示,通過最佳化,該研究將原始 MLE 模型的 mAP 分數從 39.2% 大幅提高到 54.3%。在 Pix2seq 中,具有稍大的 1333×1333 解析度和許多啟發式的相同大小的 ViT-B 模型達到了 47.1%。當使用更大的 ViT-L 主幹時,Pix2seq 報告的最佳目標檢測結果為 50.0%。

上色

上色

圖 4 給出的定性結果清楚地表明,新模型始終能產生更豐富多彩的圖像。

圖像描述

圖像描述

表 3 結果表明,應用所提出的方法可以改進 MLE 模型,這與先前文獻中的觀察結果一致,證明了該方法針對特定任務風險進行 tuning 的有效性。

全面學習ChatGPT,機器之心準備了 89 篇文章合集

這是一份全面、系統且高質量的 ChatGPT 文章合集,我們篩選出來了 89 篇相關文章,設計了閱讀框架與學習路徑,大家可以根據自己的需求進行瀏覽與研讀。合集內容包括:

  • ChatGPT 及 OpenAI 大事件時間軸

  • 概念·真正搞懂 ChatGPT:共 3 篇文章

  • 研究·GPT 家族更迭:共 16 篇文章

  • 八年·OpenAI 的歷史與現在:共 13 篇文章

  • 乾貨·GPT 相關研究與技術:共 18 篇文章

  • 觀點·專家談 ChatGPT:共 8 篇文章

  • 行業·應用與探索:共 23 篇文章

  • 行業·同類產品:共 8 篇文章

點選閱讀原文,開始學習ChatGPT。

相關文章

當創業者開始用 ChatGPT 裁員

當創業者開始用 ChatGPT 裁員

他說,從沒想到科幻片的場景有一天會發生在自己身上。 作者 | 黎詩韻編輯| 衛詩婕 幾個月來,對話機器人 ChatGPT 展現出的能力令世界...

ChatGPT 的「神功」,是如何煉成的?

ChatGPT 的「神功」,是如何煉成的?

最強對話式 AI,站在巨人的肩膀上。 AIGC 在這幾個月成了一個大熱的話題。 頗有些風水輪流轉的感覺,如同年初大火特火的 web3 一樣,...