ChatGPT官宣數學能力再升級,網友:終於精通十以內加減法了

隨著 ChatGPT 熱度一直不減,OpenAI 持續拓展其能力。同時,ChatGPT 的競品不斷湧現,如何更準確檢測其生成文字也成為了近來學界的一大研究課題。

自 ChatGPT 發佈以來,它的能力不斷被人們解鎖,比如寫神經網路、做智慧音箱。人們在試用中慢慢發現,數學能力是 ChatGPT 的一大短板,連簡單的「雞兔同籠」題都能算錯。

大概是考慮到了這一點,ChatGPT 剛剛宣佈了一次重要更新:提升了「真實性」和「數學能力」。

本次是 ChatGPT 自去年 11 月推出以來的第三次更新,但由於「更新說明」過於模糊,人們還需要經歷一個對新能力的探索過程。

幾日前,電腦科學家、Wolfram 語言之父 Stephen Wolfram 將理工科神器 Wolfram|Alpha 與 ChatGPT 結合起來,為後者注入超強計算知識實現互補,效果相當不錯。

那麼,這次更新之後的 ChatGPT 數學能力可與其一戰嗎?

看起來…… 對比的結果不盡如人意:

看起來…… 對比的結果不盡如人意

「只能說神經網路不是用來幹這個的」,Sebastian Raschka 都覺得無奈了。

還有人發現,升級後的 ChatGPT「脾氣逐漸暴躁」:

「你數學是哪位老師教的?」面對一道十以內加減法的題目,它的語氣像極了輔導孩子作業的家長。

這也許是「偶然現象」?看來數學是真難。

不管怎麼說,我們可以期待一波後續的有趣 Demo 了。

太捲了:ChatGPT 和它的競爭者們

「未來 6 到 12 個月將帶來實驗的爆炸式增長,一旦公司能夠使用 OpenAI 的 API 在 ChatGPT 之上構建。出現的殺手級用例可能是圍繞生成式 AI 對知識管理的影響。」

Nicola Morini Bianzino。

在最近的一次公開活動上,安永全球技術長 Nicola Morini Bianzino 表示,目前還沒出現在企業中使用 ChatGPT 的「殺手級」用例。但這種狀態可能很快就會改變,他預測未來 6 到 12 個月將帶來大量實驗,尤其是當公司能夠使用 OpenAI 的 API 在 ChatGPT 上構建之後。

Bianzino 將生成式 AI 對知識管理的影響描述為「AI 的辯證法」。「知識公司傾向於以一種非常扁平的二維方式儲存知識,這使得訪問、互動和對話變得困難。我們在 20、30、40 年前嘗試構建專家系統。這並不是很順利,因為它們太死板了。我認為這項技術有望克服專家系統存在的許多問題。」Nicola Morini Bianzino 表示。

與此同時,ChatGPT 的競爭者們也不斷湧現,這個賽道變得越來越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、Google公司的 LaMDA 到 Character AI,每天似乎都有新競爭者步入賽場。

Anthropic是一家舊金山的初創公司,由幾位離開 OpenAI 的研究人員於 2021 年創立。公司成立不到一年後就宣佈了高達 5.8 億美元的融資,上週五還被報道即將增加 3 億美元融資。

這家公司開發了一個名為「Claude」的 AI 聊天機器人,目前通過 Slack 集成在封閉測試版中可用,據報道它與 ChatGPT 相似,甚至有一些改進。Anthropic 描述自身的使命為「致力於構建可靠、可解釋和可操縱的 AI 系統」。

DeepMind同樣是這條賽道上不可忽視的力量。這家公司在 9 月份的一篇論文中介紹了 「Sparrow」,被譽為「朝著創建更安全、偏差更小的機器學習系統邁出的重要一步」。Sparrow 是「一種有用的對話智慧體,可以降低不安全和不適當答案的風險」,旨在「與使用者交談、回答問題並在有助於查找證據」。

不過,DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示,DeepMind 認為 Sparrow 是一個基於研究的概念驗證模型,尚未準備好部署。

在兩週前的《時代週刊》文章中,該公司的執行長兼聯合創始人 Demis Hassabis 表示,DeepMind 正在考慮在 2023 年的某個時候發佈其聊天機器人 Sparrow 的「私人測試版」。如此一來,公司就可以開發基於強化學習的功能,比如引用來源 —— 這是 ChatGPT 所沒有的能力。

再說到Google的 LaMDA,這一模型曾在去年夏天引發過熱議 —— Google工程師 Blake Lemoine 因聲稱 LaMDA 具有感知能力而被解僱。

即使不像 Lemoine 認為的那樣,LaMDA 仍被認為是 ChatGPT 最大的競爭對手之一。Google在 2021 年發佈的部落格文章中表示,LaMDA 的對話技巧「已經醞釀多年」。與 ChatGPT 一樣,LaMDA 建立在 Transformer 架構之上,也接受過對話方面的訓練。

根據Google的說法,「在訓練期間,LaMDA 發現了一些將開放式對話與其他形式的語言區分開來的細微差別。」

《紐約時報》在 1 月 20 日的一篇報道中提到,Google創始人 Larry Page 和 Sergey Brin 上個月會見了公司高管,討論了 ChatGPT 可能對Google 1490 億美元的搜尋業務構成的威脅。Google發言人在一份聲明中表示:「我們繼續在內部測試我們的 AI 技術,以確保它有用且安全,我們期待儘快與外部分享更多經驗。」

另外一位頗具實力的玩家則是Character AI,這家公司由 Transformer 論文作者之一Noam Shazeer 創辦,逐漸為人熟知。

該公司推出的 AI 聊天機器人技術允許使用者與任何人聊天或進行角色扮演,比如模仿伊莉莎白女王和莎士比亞等歷史人物。目前該技術是免費使用的,Character 正在「研究使用者如何與之互動,然後再製定具體的創收計劃。」

傳百度將發佈類似 ChatGPT 的聊天機器人

更能引起國內 AI 從業者關注的是,據路透社、彭博社等多家外媒報道稱,百度公司計劃在 3 月份推出類似於 OpenAI 的 ChatGPT 的人工智慧聊天機器人服務。

訊息人士稱,百度計劃在使用者提出搜尋請求時整合聊天機器人生成的結果,而不僅僅是連結。「該工具尚未命名,將嵌入在主搜尋服務中,使用者將返回對話風格的搜尋結果。」

在去年 12 月在一次內部討論中,百度 CEO 李彥宏曾分享自己對 ChatGPT 的看法:「把這麼酷的技術變成人人需要的產品」才是最難的,希望百度新的一年「至少能有一個高成長、有創新的業務,真正的 above and beyond our expectation」。

而據《科創板日報》1 月 30 日報道,百度內部確有推出類似 ChatGPT 聊天機器人的規劃,但具體時間並不精確。百度 CEO 李彥宏對於該項目的定位是「引領搜尋體驗的代際變革」。他在內部指出,相關技術已達到臨界點,百度在其中有較大的機會。

檢測利器:讓大型語言模型生成的文字無處隱藏

ChatGPT 的能力縱然強大,但同時它在學校作業、論文發表等領域的濫用已經引發了人們廣泛的擔憂。因此,學界開始探索檢測 ChatGPT 等大型語言模型(LLM)生成文字的方法和工具。

馬里蘭大學幾位研究者對 ChatGPT 等語言模型輸出的水印進行了研究。在論文《A Watermark for Large Language Models》,他們提出了一種高效水印框架,水印的嵌入對文字質量的影響忽略不計,可以使用高效的開源演算法進行檢測,而無需訪問語言模型的 API 或參數。

本文方法可以檢測到比較短的合成文字(少至 25 個 tokens),同時使得人類文字在統計學上不可能被標記為機器生成。

論文地址:https://arxiv.org/pdf/2301.10226v1.pdf

史丹佛大學幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,證明了從 LLM 中取樣的文字傾向於佔據模型對數概率函數的負曲率區域。利用這一觀察結果,他們定義了一個基於曲率的新標準,來判斷一段文章是否由給定的 LLM 生成。

研究者將他們的方法稱為 DetectGPT,它不需要訓練單獨的分類器、收集真實或生成段落的資料集以及顯式地為生成文字加水印。DetectGPT 僅使用感興趣模型計算的對數概率和另一通用預訓練語言模型(如 T5)生成段落的隨機擾動。

結果發現,DetectGPT 比當前模型樣本檢測的零樣本方法更具辨別力,尤其是將 20B 參數 GPT-NeoX 生成的假新聞報道檢測從最強零樣本基線的 0.81 AUROC 提升到了 0.95 AUROC。未來將公佈程式碼和資料。

DetectGPT 檢測 GPT-3 生成文字的示意圖。

論文地址:https://arxiv.org/abs/2301.11305

除了以論文形式展現的檢測方案,也有個人推出了強大的檢測工具。比如一位來自 Hive AI、致力於 ChatGPT 檢測器研究的 ML 工程師,其方案能夠識別 ChatGPT、GPT-3 和其他流行 AI 引擎生成的文字

從內部基準測試結果來看,該方案效果明顯優於 GPTZero 和 OpenAI GPT2 Output Detector 等類似方法。在內部資料集上,模型平衡準確率 > 99%,而 GPTZero 的準確率約為 60%,OpenAI GPT2 Output Detector 的準確率為 84%。

Demo 地址:https://hivemoderation.com/ai-generated-content-detection

最後,GPTZero 也迎來了更新 ——GPTZeroX,一個專為教育者打造的全新 AI 檢測模型。該模型可以混合處理 AI 生成和人類文字,並突出顯示最有可能由 AI 生成的文字部分。此外構建了一個 pipeline 來處理 PDF、Word 和.txt 格式的檔案批量上傳,從而輕鬆運行多個檔案。

Demo 地址:https://gptzero.substack.com/p/gptzerox

總之,隨著 AI 生成文字檢測工具的日益豐富和日加完善,ChatGPT 等大型語言模型在應用時勢必會越來越正規,幫助人們更高效地釋放 AI 的能力。

參考連結:

《百度進軍 ChatGPT 李彥宏:相關技術已達到臨界點》 (https://mp.weixin.qq.com/s/1WZDu8aVcAUoHZfxjiMh7A)

https://venturebeat.com/ai/who-will-compete-with-chatgpt-meet-the-contenders-the-ai-beat/

https://venturebeat-com.cdn.ampproject.org/c/s/venturebeat.com/ai/chatgpts-killer-enterprise-use-case-will-be-managing-knowledge-says-ey-cto/amp/

相關文章

某二手交易平台 AirPods 只要500元?

某二手交易平台 AirPods 只要500元?

前幾天,差評君在公眾號爆料區接到一名網友的爆料。 這名網友說,他在「某魚」上買到了山寨的 AirPods,並且被某魚拒絕了退款維權,希望尋求...

iOS 14.2,問題有點多?

iOS 14.2,問題有點多?

斷觸、綠屏、嚴重耗電問題、螢幕亮度異常,就目前的情況看,iOS 14.2 是個不成熟,漏洞百出的正式版系統。 第一:iPhone 12 mi...

ChatGPT 背後的經濟賬

ChatGPT 背後的經濟賬

拿投資和賺錢之前,要先去了解下成本。 ChatGPT 能否取代 Google、百度這樣的傳統搜尋引擎?為什麼中國不能很快做出 ChatGPT...