內容一覽:GPT-4 猶如一記核彈,在 3 月 14 日引爆了整個科技圈。在這場核爆的中心,萬眾矚目的 GPT-4 狂秀肌肉,而在核爆的外圍,Google等眾神虎視眈眈,動作不斷。
關鍵詞:GPT-4 Google 多模態模型
美東時間 3 月 14 日,OpenAI 重磅推出大型多模態模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天機器人背後的技術基礎。OpenAI 稱,GPT-4 能接受圖像和文字輸入,輸出文字內容,雖然在許多現實場景中的能力不如人類,但在各種專業和學術基準測試中已表現出人類水平。

OpenAI 發佈 GPT-4
GPT-4 突襲落地:三大特性吸睛
GPT-4 此次更新,主要有三個飛躍式提升的新特性:文字輸入限制提升、具備識圖能力以及更強的推理能力。
內容更長更豐富
據 OpenAI 說法,GPT-4 能夠處理超過 25,000 個單詞的文字。Medium 作家 Michael King 對此談道,此特性允許創建長篇內容,例如文章和部落格,能夠為企業和個人節省時間和資源。
此外,GPT-4 對大量文字的處理使擴展對話成為可能,這意味著,在服務業等行業中,人工智慧聊天機器人可以對客戶的查詢提供更詳細、更具洞察力的響應。同時,此特性還能進行高效地文件搜尋和分析,從而成為金融、法律和醫療保健等行業的有利工具。

GPT-4 處理文字能力優於 ChatGPT
更具推理能力
OpenAI 表示,GPT-4 生成的答案錯誤更少,正確性要比 GPT-3.5 高 40%。同時,GPT-3.5 與 GPT-4 在閒聊時差別不大,但若任務夠複雜,GPT-4 要比 GPT-3.5 更可靠、更有創意且能處理更多微妙指令。據悉,GPT-4 參加了多種基準考試測試,其中在 Uniform Bar Exam、LSAT 等考試中,得分要高於 88% 的應試者。

「做題家」 GPT-4
亮眼新特性:多模態
除了答題能力更勝一籌之外,GPT-4 另一個亮眼的特性就是可以接受文字和圖像形式的輸入,圖像類型可以是照片、圖表以及螢幕截圖等。比如以下例子:
問題:這幅圖有什麼好笑的? 逐條描述它。
GPT-4 回答:該圖像顯示了一個包含三個圖片的 「 Lightning Cable 」 介面卡。
圖1:一個智慧手機與 VGA 聯結器(一個大型,藍色,15 針聯結器通常用於計算機顯示器)插入其充電埠。
圖2:「 Lightning Cable 」 介面卡的封裝,上面有一個 VGA 聯結器的圖片。
圖3:VGA 聯結器的特寫鏡頭,最後是一個小型 Lightning 聯結器(用於為 iPhone 和其他蘋果設備充電)。
這張圖片中的幽默來自於將一個過時的大型 VGA 聯結器插入一個小型的現代智慧手機充電埠的荒謬性。

GPT-4 分析梗圖
需要注意的是,此特性還處於研究者預覽版本,並沒有對外開放,OpenAI 尚未透露開放時間。
「它並不完美」
在介紹 GPT-4 的新功能的同時,OpenAI 也坦言了它的一些侷限性。與之前版本的 GPT 一樣,GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等問題。換句話說,目前來看 GPT-4 並不完美。但 OpenAI 也表示,這些都是他們正在努力解決的問題。
多模態模型:Google搶先上「前菜」
雖然多模態是 GPT-4 一大亮眼特性,但不得不說,GPT-4 並不是唯一的多模態模型。
微軟 AI 技術專家 Holger Kenn 介紹所謂多模態模型,是其不僅可以將文字相應地翻譯成圖像,還可以翻譯成音訊和視訊。而早在本月初,Google就已發佈史上最大的視覺語言模型——PaLM-E (Pathways Language Model with Embodied),一個可用於機器人的嵌入式多模態語言模型。PalM-E 整合了 540B 的 PaLM 語言模型和 22B 的 ViT 視覺模型,因此具有 562B 參數。
研究人員在多個任務,包括機器人操作規則、視覺問答和圖像字幕中等進行了端到端的訓練,評估結果表明該模型能夠能有效地解決各種推理任務,並在不同的觀察模態和多個實體上表現出了「正向轉移 (positive transfer)」,並且該模型除了接受機器人任務訓練,還在視覺-語言任務上有出色的表現。

PaLM-E 將傳感器與文字輸入結合,建立語言和感知連結
展示示例中,當人類發出「把抽屜裡的薯片拿給我」的指令時,PaLM-E 可以為一個裝有機械臂的機器人生成一個行動命令並執行行動,其通過分析來自機器人攝像頭的資料實現,而無需對場景進行預處理。

機器人完成了「 把抽屜裡的薯片拿給我」的指令
除了賦予機器人以上能力,PaLM-E 本身也是視覺語言模型,可以看圖說故事,或者依據圖片內容回答問題。
多模態模型等同「iPhone 」發佈?
如今看來,整個 AI 領域正在緊鑼密鼓地開展軍備賽。面對 ChatGPT 的爆火,Google緊急發佈 Bard 步步緊逼,近日又再次反擊,開放自家的大語言模型 API 「PaLM API」,同時還發布了一款幫助開發者快速構建 AI 程序的工具 MakerSuite。
雖然 OpenAI CEO Sam Altman 前不久在接受採訪時,仍對 GPT-4 的發佈時間保持神秘,宣稱「我們要在發佈時,確定它是安全且負責任的」,但 GPT-4 這一波突襲,難免讓人猜測是否是由於面對Google等巨頭不斷地反擊和圍剿,迫使它的步伐加速。
需要注意的是,Sam 採訪中還談到一個觀點,人工智慧的下一個進化階段正是多模態大模型的到來。「 我認為這將是一個大趨勢…更普遍的是,這些強大的模型將成為真正的新技術平臺之一,這是自移動平臺以來我們沒有擁有過的。」
此次 GPT-4 的重磅發佈,是否標誌著多模態模型時代正式到來,尚需要時間證明,但其強大的能力已經開始讓很多開發者甚至普通人擔憂自己是否會被其取代。這一點,或許微軟德國 CEO Marianne Janik 幾天前的公開言論可以作為答案,她認為當前 AI 發展就像當年「iPhone 出現」,同時,她也明確表示這不是要取代工作,而是要以與以前不同的方式完成重複性任務。
「變革會使得傳統的工作模式發生變化,但我們也應該看到,這種變化增加了很多新的可能性,因此,也會出現讓人興奮的新職業。」
參考連結:
[1]https://openai.com/research/gpt-4
[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/
[3]https://palm-e.github.io/
[4]https://medium.com/@neonforge