對手來了!亞馬遜生成式 AI 比 GPT-3.5 更好

作者 | NIVASH JEEVANANDAM 譯者 | 禾木木

技術圈很久都沒有這麼熱鬧了,要問大家當下都在熱聊什麼,非 ChatGPT 莫屬了,一舉成為 Stable Diffusion 之外的 AI 新寵。

網友也特別樂於「調戲」它,還生成出了不少奇怪的神回覆。

OpenAI 在兩個多月前向公眾推出了 ChatGPT,立即將 AI 驅動的聊天機器人推到了主流討論中心,人們都在討論它如何改變商業、教育等領域。

近日,在 ScienceQA 基準測試中,研究人員表明:亞馬遜的新語言模型比 GPT-3.5 高出 16 個百分點(75.17%),甚至超過了許多人類。

注:ScienceQA 基準測試是一組帶有註釋答案的大型多模態科學問題集。它有超過 21,000 道多模態選擇題(MCQs)。

技術的進步使大型語言模型(LLMs)能夠很好地完成複雜推理的任務。這是通過思維鏈(CoT)的提示來實現的,思維鏈是發展中間步驟的意義,以顯示如何做某事的過程。

但目前大多數關於 CoT 的工作只關注語言模式,研究人員經常使用多模態 CoT 正規化來尋找多模態 CoT 推理。而多模態更依賴於視覺和語言等多種輸入。

它是如何工作?

它是如何工作?

多模態 CoT 將多個步驟的問題分解為中間推理過程,即使輸入來自語言和視覺等不同模態,從而都能得出最終答案。

進行多模態 CoT 最常見的方法之一是在要求 LLM 做 CoT 之前,將來自多種模態的資訊合併為單一的模態。

但這種方法有一些問題,其中之一是將資料從一種格式轉移到另一種格式時,會丟失很多資訊。通過結合語言和視覺的不同方面,微調小型語言模型也可以在多模態中進行 CoT 推理。

然而,這種方法的主要問題是,這些語言模型有產生幻覺的推理模式的傾向,大大影響了答案推理。

亞馬遜的研究人員提出了 Multimodal-CoT,它將視覺特徵結合在一個單獨的訓練框架中,以減少這些錯誤的影響。該框架將推理過程分為兩部分:尋找原因和找出答案。該模型通過將視覺納入兩個階段,提出了更有說服力的論點。此外,它還有助於對答案得出更準確的結論。這是第一個研究 CoT 推理工作方式不同的同類作品。在 ScienceQA 基準測試中,亞馬遜研究人員提供的這項技術展示了最先進的性能,比 GPT-3.5 精度高出 16 個百分點,超過了人類的表現。

它的表現如何?

它的表現如何?

多模態答案 CoT 的推理和推理生成階段都使用相同的模型架構,但在輸入和輸出上有所不同。例如,在視覺語言模型的基本原理生成階段,模型從視覺和語言領域獲得資料。然後,一旦做出了基本原理,就會將其添加到答案推理步驟中的初始語言輸入中,以便為下一階段的語言輸入。

簡單地說,該語言的文字被放入Transformer 編碼器中以形成文字表示。然後,將這些文字和視覺表示放在一起,並輸入 Transformer 解碼器。

評價

為了了解他們的方法如何運作,研究人員對 ScienceQA 進行了許多測試。得出結論,他們的方法在基準測試上比之前最先進的 GPT-3.5 模型高出16%。

簡而言之,亞馬遜的研究人員通過提出一個將視覺和語言表示與運行 Multimodal-CoT 相結合的兩階段框架,研究並解決了激發多模態 CoT 推理的問題。

因此,該模型提供了實際的理由來幫助找出最終的答案。

結論

結論

亞馬遜的研究人員在他們的研究中證明,使用視覺特徵有助於開發更有效的推理,這有助於更準確的答案推理。

使用多模態 CoT,他們證明了 1B 模型在 ScienceQA 基準測試中的表現比 GPT-3.5 要高出 16%。他們的錯誤分析表明,在未來的研究中,有可能利用更有效的視覺特徵,注入常識性資訊,並應用過濾過程來改善 CoT 推理。

目前,行業巨頭們已經逐漸在研究建立一個聊天機器人發展的標準,亞馬遜現在也加入了這場競爭中。無論是國內外,這場競爭無疑將引領聊天機器人最佳解決方案和產品的發展方向,讓我們拭目以待未來會有哪些精彩的事情。

參考連結:

https://www.moneycontrol.com/news/technology/chatgpt-competitors-amazon-jumps-into-fray-with-generative-ai-better-than-gpt-3-5-10063651.html/amp

相關文章

人工智慧和程式設計的終章

人工智慧和程式設計的終章

【CSDN 編者按】隨著人工智慧以及大型語言模型的崛起,人工程式設計真的來到了終章了嗎?作者通過對 ChatGPT 的一些小測試,來檢驗人工...

重磅,GPT-4 API 全面開放使用!

重磅,GPT-4 API 全面開放使用!

整理 | 屠敏 遙想今年 3 月剛推出GPT-4的 OpenAI 僅邀請了部分提交申請的開發者參與測試。眼瞅 OpenAI 聯合創始人 Gr...