
Model go everywhere.
作者 | 凌梓郡、Founder Park
在AI上積累了7年的Google,迎來了一場真正以 AI 為核心的I/O發佈會。

比起去年,強調「整合全球資訊,使人人都能從訪問中受益」的使命,Google CEO Sundar Pichai 今年 以「Making AI helpful for everyone」總領整個發佈會。AI 將成為工具,幫助每一個人。這既包括了Google一貫強調的整合資訊、學習,還包括 AI 成為創作力輔助、幫助企業更好地創新產品。
模型、產品、功能、平臺、硬體,一個接一個 demo,一個接一個 trailer,掌聲和歡呼一刻也沒有停下。
如果沒有 OpenAI 和微軟帶來的競爭,我們可能永遠看到不到這樣一場,超負荷的 Google I/O 發佈會。
在這兩個半小時裡,山景城的海濱露天劇場,渴望成為世界中心。

開場三個 Demo
開場前的表演即是一個生成式人工智慧實驗。
音樂家丹·迪肯使用Google的 MusicLM、Phenaki 和 Bard Al 製作。「在製作這個節目的過程中,沒有鴨子受到傷害。」
Sundar Pichai 登臺,「機會終於來了,」他說,「這是 AI 的好年」。
在大模型及一系列產品功能更新前,他先上了三碟前菜。

Gmail 發佈新功能「幫我寫」(Help Me Write),根據郵件內容,用自然語言命令 AI 撰寫對應的回覆。
比如,航空公司發來航班取消的郵件,表示會送上代金券作為補償,這時候你可以讓 AI 幫你寫一個全額退款的郵件,它就會結合具體郵件內容,撰寫全文。

Google Maps 將街景與導航結合,發佈新功能「沉浸式路線視圖」(Immersive View for routes)。
使用者可以在導航時,直接提前看到整個路線的動態街景視角。

在這一視圖中,使用者還能查看路線中的交通、天氣情況。

Google Photos 推出「魔法編輯器」(Magic Editor)。

這是編輯前的圖片,僅僅使用拖拽和一鍵最佳化,孩子的位置移動了,天空變得更藍了。


PaLM2 取代了 LamDA,分化出四個版本
如今談AI技術,必須先亮出大模型,Google也不例外。
在 I/O 之前,關於Google最新模型的訊息就陸續傳出。此前支持 Bard 的模型是一個輕量級的對話模型 LamDA,Pichai 在三月份採訪中就表示,將把背後的模型升級為更大規模的 PaLM 模型。
I/O2023 上,最新最強的 PaLM2 終於露出了廬山真面目。PaLM2 是 PaLM1 的升級版。PaLM2 在數學、編碼、推理、多語言翻譯和自然語言生成上的表現都更加出色。
Pichai 現場展示了一個修改 Bug 後,用韓語對程式碼進行解釋的例子:


PaLM 是Google於 2022 年 4 月份推出的大語言模型,有 5400 億參數。這次介紹的 PaLM2 是在此基礎上的升級版。PaLM 是 Pathways Language Model 縮寫。可以理解為,在 Pathway 架構上訓練的模型。
Jeff Dean 曾經專門撰文介紹 Pathway 架構,這個架構是為了可以處理多工的通用模型而設計,採用了一種新的非同步分散式資料流,這使得平行計算和運行更加高效。Pathways 還可以支持包含視覺、聽覺和語言理解的多模態模型。
PaLM2 使用Google自主研發的 TPU 進行計算,具體使用了多少算力計算 PaLM2 目前尚未公佈,但可以參考訓練 PaLM1 的資料,使用了 6144 塊 TPU。
使用Google最新的 TPU 架構來訓練模型,意味著在基礎工程上,Google進行了整合計算、最佳化縮放、改善資料集組合和模型架構等各項工作,這些也能夠使得模型能力靈活被調用進各種產品、服務中。Google能夠將模型的能力按照需求進行蒸餾和提煉。
為了讓模型的能力更靈活地服務於產品,Pichai 特地強調,PalM2 有四種不同的尺寸,分別以動物的名稱命名:壁虎、水獺、野牛和獨角獸。其中壁虎(Gecko)最輕量級的版本。

Gecko is so lightweight that it can work on mobile devices and is fast enough for great interactive applications on-device, even when offline. This versatility means PaLM 2 can be fine-tuned to support entire classes of products in more ways, to help more people.
Gecko 是如此輕量級,以至於它可以在移動設備上工作,而且速度足夠快,可以在設備上運行互動式應用程序,即使在離線時也是如此。這種多功能性意味著可以對 PalM2 進行微調,以便以更多的方式支持整個類別的產品,從而幫助更多的人。
最輕的模型可以在移動設備上運行互動應用程序,而在最新的三星 Galaxy 上,它能夠每秒處理 16 個Token。
此外,pathway 架構的設置,也利於在特定領域對模型進行微調。健康研究團隊在此基礎上進一步發展,創建了 Med-PaLM 2,它可以檢索醫學知識、回答問題、生成有用的模板,解碼醫學行話。
在上一代 AI 視覺技術中,AI 已經被訓練能夠看懂 X 光片等圖像,現在結合語言生成能力,模型能夠根據提供的 X 光片,寫出病例分析。

搜尋新體驗:升級 Bard 之外,又加了一個 Search Lab
之前為了應對 NewBing 的挑戰,Google匆匆上線了對話機器人 Bard。但是從各種使用者反饋來看,許多人都覺得作為搜尋助手的 Bard 不如 NewBing 好用。
對話與生成將更新搜尋體驗,已經成為新的共識,但是具體的產品形態依舊在探索的路上。Google也不想用 Bard 這個產品完全定義自己未來的搜尋產品形態,因此關於搜尋功能的升級,Keynote 中分為兩個部分來展示:Bard 產品升級,Search Lab 的新功能測試。而這些新的功能,都由最 PalM2 來支持。
Bard 的基本功能點升級比如支持更多語言,能夠識別圖像資訊,都屬於規定動作,並無意外。讓人感到驚喜的地方是,Bard 將接通Google自己的應用程序,以及一些外部的應用,來實現更強大的功能。
比如,有著驚豔語言生成圖像能力的Adobe firefly,在未來幾個月將直接集成到 Bard 中。這樣在和 Bard 的對話中,就能夠設計圖片,比如請柬的封面、想象中的蛋糕。
Google地圖、圖表能力也能夠直接在 Bard 中調用。現場演示給了一個例子,使用者通過提問得到了幾所符合自己報考目的大學名單,讓 Bard 在地圖中將這幾個學校的地址標出來,再讓 Bard 根據學習的專業、排名、地址等相關資訊生成對比表格。


關於複雜問題的搜尋,則在 Search Lab 的環節中進行演示。Search Lab 是一個探索性的產品,目前還沒有全部開放,需要申請 Waitlist 才能使用。
新的搜尋體驗試圖幫助人們更好地分析一個複雜、或者有些模糊的問題。在人們開始搜尋的時候,往往問題並不明確,而是知道一個大致的方向,又或者是問題能夠再被拆分為子問題。
現場演示了對比景點、購買 ebike 兩個例子。搜尋即是決策過程,AI 生成要點提供了思考的框架,並提供相關連結,使用者可以通過對話深挖資訊。

有 3 歲以下的孩子和狗狗的家庭,Bryce Canyon 和 National Parks 哪個更適合?在這個案例演示中,Generative AI 彙總提煉了兩個景點的優劣,並且提供了幾篇參考連結,如果使用者有需求,可以打開參考連結閱讀,而且連結文章也會根據不同的內容重點進行分類。

在另外一個演示案例中,使用者需要選購一輛支持通勤 5 英里和山路的 ebike,AI 會提煉設計、電池、減震裝置等關鍵的選購因素。

對話模式下,AI 會記住使用者之前的一些選擇,對資訊做進一步的處理。比如使用者想要「紅色的 Ebike」,AI 會繼續基於「通勤 5 英里、支持山路」等條件繼續進行篩選。


Google的 AI 副駕駛,叫「Duet AI」
不出意外,有了新模型,對內,能升級的產品升級;對外,向企業提供服務,幫助他們更好地用上模型能力。這也符合 Pichai 在開場後不久提到的「AI helpful everyone」。
Google Workspace 是Google推出的多人協作軟體,現在無論是寫作文案、故事寫作、製作幻燈片、製作表格,都可以用上 AI 了,形式類似於微軟的 Copilot,在工作的主界面右側有一個邊欄,Google將其稱為「sidekick」,AI 會在這裡提出文章的修改意見、建議生成配圖、表格的樣式,使用者選擇合適的結果,就可以將 AI 生成的內容移入主界面。

「sidekick」樣式
「Help Me Write」的寫作輔助功能,同時出現在 Workspace 和 Gamil 裡。據Google介紹,目前在 Workspace 最受歡迎的用例是「給出幾個關鍵詞,完成招聘要點」。
閱讀室、豌豆莢創始人,同時也是Google前員工的王俊煜對此吐槽,這個產品設計就是沿用了 Microsoft 365 Copilot 的思路,但是換了個「Duet AI」的名字。

形式上看起來的確差不多,不過使用體驗如何涉及很多細微的因素,比如根據 prompt 的生成內容是否令人滿意,根據文章內容生成的配圖效果如何,是不是可以直接使用。這些都需要等待使用者們使用了一段時間後,給出反饋。
就像各處出現的「Help Me Write」,「Duet AI」也出現在給開發者的雲工具上,在 Cloud Console 出現的「Duet AI」,功能是用語言改善開發者與雲平臺上工具的互動體驗。利用生成式 AI 提供實時的上下文程式碼完成、程式碼函數生成、基於程式碼庫的建議,甚至協助進行程式碼審查和檢查。

面面俱到的服務:
平臺、模型、計算設施
Google面向企業的 AI 平臺叫做 vertex AI,企業使用者可以在這個平臺上調用需要的模型、按照需求對模型的參數權重進行微調、根據內部資料建立企業版本的搜尋引擎。
除了語言模型,Google還提供了其它三個專業能力模型供選用:圖像生成模型、程式碼生成模型、以及文字轉語音模型 Chirp。
在現場展示的合作伙伴中,Replit、Character AI、Canvas 等明星公司都在其中,當然還有Google自己投資的 Antropic,也在使用Google提供的模型雲服務。
現場還公佈了一個基礎設施層面的訊息,Google和英偉達合作,搭建了基於 H100 的下一代 A3 圖形處理器超級計算機。
基於 H100 的 A3 虛擬機器,網路頻寬比上一代 A2 虛擬機器多 10 倍。當然,PalM 的 API 也將在不久開放。
可以說,在對外輸出模型能力上,Google確實拿出了實力雄厚的大廠做派,從開發工具平臺、到基礎模型、到基礎設施、開放 API,一整個做了全套。

硬體:三款新產品,Android 14 未登場
這次 I/O 大會上 Google 也發佈了一系列的硬體。除了在 2022 I/O 上預告的 Android 平板、新機 Pixel 7a,Google也終於發佈了自己的摺疊手機。
今年 5 月 4 日星戰日,Google 的一段視訊洩露了摺疊手機 Pixel Fold 的存在。

對標三星的 Galaxy Z Fold 系列,目前有黑白兩種配色,官方價格 1799 美元,已同步上架,預定送 Pixel Watch,6 月開始配送,默認不包含充電器。
為了實現摺疊的形態,Google重新設計了長焦鏡頭模組、電池元件等等,使其保持相對的輕薄,官方號稱是最薄的摺疊屏手機。

雙屏除了我們常見的桌面模式和懸停模式之外,Google考慮的「內外屏」同時顯示功能是『實時翻譯』,內外屏顯示兩種翻譯的語言(感覺並不是什麼有用的功能,語音翻譯不是更實用?)。

總結
在微軟的 NewBing、Office 365 全家桶、Notion AI 輔助寫作功能面世之後,再看Google的產品似乎都給人一種似曾相識之感,很難耳目一新。大模型給產品形態上帶來的第一輪衝擊,已經基本完成了。
值得注意的是,雖然產品展示了識別圖片的能力,但是Google似乎還沒有一個像 GPT-4 這樣的擁有文字、圖像多模態的基礎模型。Pichai 只是預告了一個叫做 Gemini 的多模態模型,正在研發之中,不久後會公佈。
拋開 Duet AI 與 Copilot 類似的產品形態,Google在介紹時,強調了其自動最佳化 Prompt 語言表述,以及自動根據文章內容提出寫作建議的特點,似乎更加使用者友好。是否用起來也會如此,還需要等待使用者反饋。同理,最新的模型 PaLM2 所支持的搜尋功能,和 NewBing 相比,究竟體驗如何?PaLM2 支持的 Bard,比之前 LamDA 支持的 Bard,使用感能夠提升多少?
在 I/O 的媒體預溝通會上,有人提問,看起來Google將模型的能力分散到了各個產品裡,重點不明確。來自Google研究部門的工作人員回答道,「這似乎是一種分散策略,但在Google,我們支持大量的產品,我們將其視為模型的靈活性,來支持不同的用例和受眾群體。這也是我們能夠同時在許多不同方向上測試模型能力的好方法。」
長期來看,大模型的最終競爭壁壘不在於技術,而在於產品是否會被使用者真正接納,圍繞技術能否實現開發者生態。從這次發佈來看,Google佈局了所有能佈局的產品與服務,而在其進入的領域中,是否能夠真正形成優勢,所有人將拭目以待。
*頭圖來源:Google