用自洽性提升大模型推理能力,谷歌解答基準中75%數學問題,比GPT-3提升20%

編輯:小舟、杜偉

近日,谷歌研究者提出一種名為「self-consistency」(自洽性)的簡單策略,不需要額外的人工註釋、訓練、輔助模型或微調,可直接用於大規模預訓練模型。

儘管語言模型在一系列 NLP 任務中取得了顯著的成功,但它們的推理能力往往不足,僅靠擴大模型規模不能解決這個問題。基於此,Wei et al. (2022) 提出了思維提示鏈(chain of thought prompting),提示語言模型生成一系列短句,這些短句模仿一個人在解決推理任務時可能採用的推理過程。

現在來自 Google Research 的研究者們提出了一種稱為「自洽性(self-consistency)」的簡單策略,它顯著提高了大型語言模型的推理準確率。

論文地址:https://arxiv.org/pdf/2203.11171.pdf

該論文的作者之一、Google Brain 的創始成員 Quoc Le 今天在Twitter上發文表示:這種自洽方法能夠解決 GSM8K 基準中 75% 的數學問題,大幅超越現有方法。

圖源:https://twitter.com/quocleix/status/1513632492124663808

簡單來說,複雜的推理任務通常有多個能得到正確答案的推理路徑,自洽方法通過思維提示鏈從語言模型中取樣一組不同的推理路徑,然後返回其中最自洽的答案。

該方法在一系列算術和常識推理基準上評估自洽性,可以穩健地提高各種語言模型的準確性,而無需額外的訓練或輔助模型。當與最近的大型語言模型 PaLM-540B 結合使用時,自洽方法將多個基準推理任務的性能提高到 SOTA 水平。

該方法是完全無監督的,預訓練語言模型直接可用,不需要額外的人工註釋,也不需要任何額外的訓練、輔助模型或微調。

該研究在三種大型語言模型上評估一系列算術推理和常識推理任務的自洽性,包括 LaMDA-137B (Thoppilan et al., 2022)、PaLM-540B (Chowdhery et al., 2022) 和 GPT-3 175B (Brown et al., 2020)。研究者發現,對於這幾種規模不同的語言模型,自洽方法都能顯著提高其推理能力。與通過貪心解碼(Wei et al., 2022)生成單一思維鏈相比,自洽方法有助於在所有推理任務中顯著提高準確性,如下圖 2 所示。

多樣化推理路徑上的自洽

多樣化推理路徑上的自洽

人類的一個突出特徵是思維方式不同。人們會很自然地假設,在需要深思熟慮的任務中,可能有幾種解決方法,所有這些方法都會得出相同的正確答案。因此,研究者建議可以通過從語言模型解碼器取樣以在語言模型中模擬這一過程。

如下表 1 所示,一個模型可以為一個數學問題生成多個可能的回答,這些回答最終得出相同的正確答案(如輸出 2、4 和 5)。由於語言模型不是完美的推理器,模型也可能產生錯誤的推理路徑或者在某一個推理步驟中出錯(例如輸出 1 和 3 中),這種解決方案不太可能得出相同的答案( 表 1 中的 26 和 14)。

也就是說,當假設推理過程正確,即使它們是多樣化的,在最終答案中往往比不正確的推理過程具有更高的一致性。

研究者提出通過一種自洽(self-consistency)方法來利用這種直覺。具體步驟如下:

  • 首先,使用一組手動編寫的思維鏈示例對語言模型進行提示;
  • 接著,從語言模型的解碼器中取樣一組候選輸出,生成一組不同的候選推理路徑;
  • 最後,通過在生成的答案中選擇最自洽的答案來集成結果。

在實驗調查中,研究者發現思維鏈提示與相結合,會比單獨使用僅考慮單一生成路徑的思維鏈產生好得多的結果。

實驗結果

研究者進行了一系列實驗,以在不同的算術和常識推理基準上將提出的自洽方法與現有方法進行比較。結果發現,該方法極大地提高了每種語言模型的推理準確性,涵蓋了廣泛的模型尺度。

具體地,他們評估了不同推理路徑上的自洽性,即自洽性(多路徑)(Multipath)。結果取 10 次運行的平均值,在每次運行中獨立於解碼器對 40 個輸出進行取樣。比較的基線是貪心解碼單個思想鏈,稱為貪心解碼(Single-path),之前已被用於大型語言模型中的解碼。

算術推理結果如下表 2 所示。對於 LaMDA-137B,自洽性策略在每個任務上較貪心解碼(Single-path)均實現了顯著的性能提升,在 AddSub、ASDiv、AQuA 和 GSM8K 任務上獲得接近 10% 絕對準確率提升,在 MultiArith 和 SVAMP 任務上分別提升了 23.9% 和 14.4%。

對於更大的 PaLM540B 模型,自洽性策略顯著提升性能,在 ASDiv、AQuA、SVAMP 和 GSM8K 上實現了 7.9%、12.5%、7.6% 和 17.9% 的顯著增益。

常識推理結果如下表 3 所示。對於 LaMDA-137B 模型,自洽性策略顯著提升所有任務的準確率,其中 StrategyQA 和 CommonsenseQA 的絕對準確率提升了 2%-5%,ARC easy set 和 ARC challenge set 的絕對準確率分別提升了 4.0% 和 4.7%。

同樣地,更大的 PaLM540B 模型也實現了持續收益,StrategyQA 上提升了 6.3%,ARC-challenge 上提升了 3.5%。

下圖 3 中通過對來自解碼器的不同數量的推理路徑進行取樣,展示了自洽性與貪心解碼(Single-path)的性能比較。可以看到,取樣更多數量(如 40 個)的推理路徑始終會產生更好的性能,再次強調了在推理路徑中引入多樣性的重要性。

該研究將自洽方法和基於集成的方法進行小樣本學習來比較二者的性能。結果如下表 5 所示,與自洽方法相比,基於集成的方法獲得的增益要小得多。

另一種提高生成質量的常用方法是取樣排序(sample-and-rank),其中從解碼器中取樣多個序列,然後根據每個序列的對數概率或基於額外訓練的重排序器進行排序。

該研究使用 GPT-3 模型得到了如下圖 4 所示的結果。雖然取樣排序方法通過額外的取樣序列和排序提高了準確性,但與自洽方法相比,增益要小得多。

更多細節內容請參閱論文原文。

相關文章

目標檢測的常用資料處理方法

目標檢測的常用資料處理方法

前言 在上節內容中,我們介紹了目標檢測的基礎概念,並分析了實現目標檢測的常用思路,本篇文章將重點介紹在該領域的經典資料集:VOC資料集,以及...

Transformer,ChatGPT 幕後的真正大佬

Transformer,ChatGPT 幕後的真正大佬

ChatGPT的背後 ChatGPT紅得發紫,強得讓人類心悸。 但在它的背後,還隱藏著一位真正的大佬。 可以說,與它相比,ChatGPT其實...