GoogleImagen首次開放測試,安卓蘋果都能玩,還有AI寫作助手、超長連貫性視訊生成模型

羿閣 發自 凹非寺

臨近年底,Google終於放大招了!

剛剛結束的AI@年度活動上,Google一口氣發佈了四項最新的AIGC技術成果。

其中最引人注意的要數文字圖像模型Imagen首次開放測試,敲黑板,這次安卓、蘋果都能玩

其他有趣的產品,還有AI寫作協助工具LaMDA Wordcraft、結合Imagen Video和Phenaki優勢的超長連貫性視訊生成模型等等。

而且,除了官方的總結,幾位來自Google的科學家也在Twitter分享了自己心中GoogleAI研究的新進展。

具體有哪些?一起往下看。

Imagen首次開放測試

自推出以來,Imagen一直被與OpenAI的DALL-E 2、Stability AI的Stable Diffusion相比較,但不同的是,Google一直沒有將該系統向公眾開放。

現在,Google終於鬆口,宣佈將把Imagen添加到其AI Test Kitchen應用中。

AI Test Kitchen,是今年I/O大會上,Google推出的一款用於對各種AI系統進行測試的應用程序,目前蘋果、安卓使用者都能下載。

最初的時候,使用者僅可以在上面與AI聊天機器人LaMDA 2進行交流,此次更新將添加兩種與Imagen互動的新方式:城市夢想家和Wobble。

在「城市夢想家」中,你可以用文字命令建造不同主題的城市,其中,Imagen模型承擔了創建樣本建築和地塊(城市廣場、公寓樓、機場等)的作用。

在Wobble中,你可以創造一個小怪物,DIY它的材質(粘土、毛氈、橡膠等),然後給它穿上你選擇的衣服,還可以戳戳它,讓它「跳舞」。

儘管與其他文字到圖像的模式相比,這些互動方式看上去還比較受限制,但Google產品管理高級總監喬希·伍德沃德(Josh Woodward)解釋稱,這一步的意義在於獲得公眾對這些AI系統的反饋,以及測試哪些行為會使得系統崩潰。

其他AIGC產品

除了最受關注的Imagen模型,Google還宣佈了在其他內容格式上的AI內容生成技術。

比如LaMDA Wordcraft,一個在大語言模型LaMDA基礎上開發的、能輔助專業作家寫作的AI寫文工具。

它的作用,是在創作者寫作的過程當中,根據現有的文字產生新的想法,或者幫助重寫已有文句,從而幫助創作者突破「創作瓶頸」。

值得一提的是,下圖中的「Evaluative Soliloquies」就是作家劉宇昆(《三體》英文版譯者)在Wordcraft幫助下撰寫的短篇小說。

除此之外,Google還結合了Imagen Video和Phenaki兩大模型的優勢,推出了一個能生成超長連貫性視訊的新模型。

還有AudioLM,一個無需文字和音樂符號訓練,僅通過聆聽音訊樣本,就可以繼續生成填補樂曲的音訊模型。

說完這些Google官方公佈的新技術,讓我們再來看看Google的科學家們自己是怎麼說的。

Google科學家眼裡的新進展

除了產品層面,今年GoogleAI研究的新進展還有哪些?

Google大腦的工程師周登勇在Twitter上分享了自己的看法:大模型學會了如何解釋答案,檢查答案,並將複雜問題分解成子問題解決。

而這一切還要從Google今年1月發佈的一篇論文「Chain of Thought Prompting Elicits Reasoning in Large Language Models」開始說起。

就是在這篇論文中,Google首次提出了思維鏈提示(chain of thought prompting)的概念。

簡單來說,思維鏈提示就是一種特殊的上下文學習,不同於標準提示只是給出輸入-輸出對的示例(如下圖左),思維鏈提示還會額外增加一段推理的過程(如下圖右)。

這一步的目的是讓模型模仿併為當前問題生成自己的思維過程,最終提高生成結果的準確性。

該方法在LaMDA-137B、GPT-3 175B、PaLM-540B三個大型語言模型上都得到了驗證:對比標準提示,新方法在算術、常識和符號推理任務的準確率上都有了明顯的提高。

並且,隨著模型參數量級的提升,思維鏈提示的效果也呈指數級上升。

尤其是配合上Google的超級語言模型PaLM-540B,在包括數學問題在內的多個推理基準測試中達到了SOTA水平,甚至超過了使用驗證器進行微調的GPT-3。

很快,兩個月後該團隊又對該研究進行了跟進。

這篇文章幾乎使用了和初代文章完全一樣的資料集和設置,主要改進是提出了一種稱為自洽性(self-consistency)的簡單策略。

簡單來說,就像人在思考時會想出幾種不同的解決方案再作出判斷一樣,自洽方法會通過思維提示鏈從語言模型中取樣一組不同的推理路徑,再對答案進行多數投票(majority vote),最後返回其中最自洽的答案。

這一步最佳化不僅意味著離模仿人類思維模式更近一步,還做到了顯著地提高思維鏈方法的性能。

最新的進展是,為了解決從易到難的泛化問題,該團隊又提出了一種新穎的提示策略。

它將複雜問題簡化為一系列子問題,然後依次解決這些子問題,從而通過對先前解決的子問題的答案來促進解決給定的子問題。

就這樣,Google正在訓練AI一步步朝著人類的思維模式靠近。

最後,說了這麼多,這一年,你印象最深的GoogleAI研究是什麼?

參考連結:

[1]https://twitter.com/dmvaldman/status/1587525225209425921

[2]https://arxiv.org/abs/2201.11903

[3]https://arxiv.org/abs/2203.11171

[4]https://arxiv.org/abs/2205.10625

相關文章

關於光通訊的最強進階科普

關於光通訊的最強進階科普

大家好,今天這篇文章,小棗君將重點介紹一些光通訊基礎知識。 眾所周知,我們現在的整個通訊網路,對於光通訊技術有著極大的依賴。我們的骨幹網、光...

什麼是PA非線性失真?

什麼是PA非線性失真?

好奇心真是擋不住,某非著名號主竟然拿出了珍藏了幾百年的古籍,啃了一下關於DFE的知識。於是忍不住就寫了這篇,以饗讀者。 首先,介紹一下什麼是...