I/O 親歷:兩年不見,谷歌的 AI 又把我們嚇了一跳

「有了 Transformer,我們從未離實現真正自然語言理解的目標如此之近。」

——

文|杜晨 編輯|Vicky Xiao

在經歷了一整年的新冠疫情之後,時隔兩年穀歌 I/O 開發者大會終於和大家再度相逢。前幾天,矽星人已經發布了本屆 I/O 大會重要內容的報道,提及了谷歌在遠端辦公、清潔能源、增強現實、Android 12 新設計語言和人工智慧等重磅話題。

大會期間,矽星人也採訪了谷歌 AI 技術和產品部門的負責人。今天,我們再來深入探討一下,從這屆 I/O 大會上我們看到谷歌在 AI 方面的更多重要突破和新動作。

Transformer 的無限邊界

2014年,被稱為「機器學習三劍客」之一的 Yoshua Bengio 教授團隊提出了注意力 (attention) 機制。基於這一機制,谷歌團隊在2017年推出了深度學習模型 Transformer。

和卷積/循環神經網路 (CNN, RNN) 等「傳統」的神經網路模型不同,Transfromer 的網路結構主要構成部分都是注意力機制,解決了傳統模型處理自然語言工作時,所採用的順序計算模式帶來的種種問題和限制。

不僅谷歌2019年基於 Transformer 技術開發的 BERT 演算法在自然語言處理各項任務中的效能有了巨大提升,這項技術也已經被位元組、美團、Facebook 等中美頂級公司廣泛採用,證明了它的巨大潛力。

這一屆 I/O 大會上,谷歌又宣佈了在自然語言處理和知識處理等方向上的全新突破:LaMDA 和 MUM,你可以閱讀我們前天發佈的文章了解這兩個新模型的更多細節。

簡單來說,LaMDA 是一個專門為對話而最佳化的自然語言處理生成模型。它是一個底層技術,不過為了展示它的能力,谷歌選擇用聊天機器人的方式來呈現:假設使用者希望了解冥王星的更多資訊,LaMDA 則可以扮演冥王星和使用者展開一場自然親切、寓教於樂的對話。

而 MUM 是一個超級強大的多模態學習模型,在解答覆雜問題上的能力遠超前輩技術。過去我們使用搜尋引擎,經常需要修改自己的問題好讓計算機理解;現在有了 MUM,我們可以直接向搜尋引擎提問,不論問句的句式有多複雜,資訊量有多大,MUM 都能夠實現準確的上下文理解,並且從75種語言的網路資料中實時提取、翻譯、組織和呈現答案。

谷歌 AI 部門產品主管 Christine Robson 接受矽星人視訊採訪表示,LaMDA 和 MUM 的底層都是 Transformer,本小節一開始提到的自然語言處理重要架構。

幾年前 Transformer 和 BERT 發佈的時候,就被認為是機器學習技術的重要突破。而今年穀歌在 I/O 上預覽的這兩個新模型,再次證明了 Transformer 尚有無限大的發展空間。

以 MUM 為例,據 Robson 透露,它和2018年穀歌發佈,被稱為自然語言處理「大殺器」的 BERT 演算法相比,性能有了足足1000倍的提升,堪稱 Transformer 技術方向的又一重大突破。

MUM 不僅能夠理解,還可以生成語言。谷歌同時採用75種語言,面向對話理解、對話生成、提煉總結、翻譯等多種不同的自然語言處理任務對 MUM 進行了訓練。這樣訓練出來的 MUM,在蒐集、處理知識和生成資訊的能力上,深度前所未有。

更令人興奮的是,MUM 還是一個多模態模型 (multimodal model),除了文字之外現在還可以從圖片中提取資訊,未來也會引入視訊、音訊等更多模態——進一步擴展了 Transformer 的實力邊界。

Christine Robson,圖片版權:Jason Henry for Wired/BackChannel

有趣的是,今年三月谷歌研究員曾經發過一篇論文,用做了各種微調的 Transformer 架構進行跨應用方向的試驗,發現效果並不算很好。時隔兩個月,通過 LaMDA 和 MUM,谷歌自己在 I/O 上就給其它研究人員和開發者們做了一個「怎樣正確使用 Transformer」的優秀示範。

」最讓我個人感到興奮的,是看到 Transformer 技術宏大的發展曲線,「 Robson 對矽星人表示。她說,2017年發佈並開源 Transformer 的時候,就已經預料到它會有很大的潛力;然後有了 BERT,整合到搜尋當中顯著提高了搜尋結果,」今天看到 MUM 和 LaMDA 的表現,我相信 Transformer 還有很長很令人興奮的路要走。「

為什麼 Transformer 對於谷歌來說如此重要?

」我在 AI 領域從業很多年了。我的感受是,實現真正的自然語言理解一直都是一個難以企及的目標,我們的每一次突破,其實都離那個目標更近了一步,但從未真正達到,「Robson 告訴矽星人,」語言是人類實現溝通的最自然的方式,所以讓機器實現真正的自然語言理解是我們一直追尋的目標。現在我們看到 Transformer 的潛力如此巨大,讓我們從未離這個目標如此之近。「

當然,並不是所有人都能享受到 MUM 和 LaMDA 所依賴的計算環境:谷歌的 TPU 晶片和 TPU Pod 雲端運算模組。

TPU 計算設備在今年 I/O 大會上也正式宣佈升級到 v4,單晶片(下圖左包含4顆晶片)的計算速度是 v3 的兩倍,而 TPU v4 Pod(下圖右)搭載4,096顆 TPU v4 核心,總計浮點算力高達 1 exaflops(每秒一百億億次浮點運算)。Robson 透露,谷歌最近在 Transformer 相關技術上實現突破,TPU 優越的計算環境居功甚偉。

雖然現在谷歌把這兩項技術通過聊天機器人和搜尋引擎的方式呈現,實際上 LaMDA 和 MUM 都還是非常早期的研究項目,距離商用化還很遠,甚至目前連論文都還沒有。谷歌還有很多這樣的,在內部稱為”moonshot”的項目。

以 MUM 為例,谷歌在官網上表示,將該技術應用到搜尋當中還存在一些不小的,社會責任方面的挑戰。和 BERT 一樣,MUM 也會經歷一個較為漫長、十分嚴格的審核流程,谷歌希望在這樣的流程中能夠發現這些前沿技術可能存在的社會責任問題,比如偏見、耗能等等。

這意味著我們不會在近期看到 MUM、LaMDA 等技術,被整合到搜尋、Google Assistant 以及其它谷歌產品和服務當中。當然,和我們一樣,谷歌自己也很期待它們能夠真正派上用場的那天。

廣告

廣告

生活有用,娛樂有趣

雖然諾基亞早已淡出了科技圈的第一梯隊,「科技以人為本」的理念仍貫徹於各大公司,這些公司當中就有谷歌。

前段時間,矽星人還算客氣地點評過,谷歌一些先進的 AI 研究成果,和核心業務、重要產品服務的整合度不高。當然正如剛才提到,大公司有更復雜的運作機制,面臨著更多社會責任方面的挑戰。以及最近吳恩達也表示過,所有的 AI,從」概念證明「到」投入商用「都有很長的路要走。

而從本屆 I/O 大會上,我們也看到了谷歌正在加大 AI 技術投入到全線產品中的努力。

地圖:

谷歌在大會上表示,僅今年,AI 技術就已經幫助 Google Maps 了實現超過100項功能更新。而在不遠的未來,還有更多新功能和體驗最佳化正在趕來的路上。

在導航方面,地圖團隊發現最快的導航路徑並不一定是最好的,很多時候這些最快路徑反而車流量更大、交通情況更復雜,一個最關鍵的問題,就是司機經常遇到「突然剎車」的情況,而資料顯示突然剎車和交通事故發生的關聯度更高。

所以,谷歌將在未來的版本更新中加入一種新的導航邏輯:推薦交通情況更「均衡」和流暢,突然剎車的可能性更小的導航路徑,引入道路的車道數、路徑筆直程度、信號燈數量、行人的人流等等。通過新的導航邏輯,谷歌預計每年能夠幫助使用者減少一億次突然剎車的情況,「讓你從 A 到 B 更快,同時也更安全。」

藉助機器學習計算機視覺的力量,谷歌現在還對全球大量的衛星圖片進行了分析,在地圖上標註人行橫道的位置,幫助使用地圖的行人使用者也能更安全地過馬路。該功能即將支持全球超過50個城市

疫情期間,很多使用者出門購物、用餐的時候,都會更多留意谷歌地圖上目的地忙碌程度的功能,錯峰出行。好訊息是,同樣利用機器學習挖掘資料,現在谷歌可以把一個更大區域的忙碌程度也呈現給使用者:

Photos & Lens

Photos & Lens

谷歌的雲相簿產品 Photos 現在已經儲存了超過4萬億張照片,但是團隊也發現一個大部分人應該清楚,但平時很少意識到的問題:我們的大部分照片,最後都只是存了起來沒有再翻看過(小吐槽:為了存照片多花錢買大容量手機,真的值得嗎?)——但這些照片,對使用者並非沒有價值。

如何挖掘價值,Google Photos 團隊開動腦筋,而他們做出了這樣一個功能:從海量的照片當中抓取微妙的相同細節,把內容看起來相似的,或者包含了相同人物、物品的照片,集合到一個 memory(自動生成的相片冊)裡。

這些照片存放在虛擬世界的角落積灰,並沒有多大的意義,但如果被集合起來,其實講述了一個又一個美好的,可能早已被我們遺忘的故事。比如,你可能會驚訝地發現,那隻從大學時候爸媽送給你,早就背爛了扔掉的黃色書包,其實曾經陪伴你遊歷了天南海北,

另一個新功能叫做 Cinematic moments:Google Photos 現在可以藉助神經網路的力量去分析幾張相似照片之間的關聯,猜測並且補完缺失的細節,生成一個小短片保存下來。這個功能和 iOS Live Photos 等類似功能不同之處在於,它拍的仍然是照片,而不是視訊。幾張照片之間的時間跨度可以更大。

除了用 AI 為使用者提供更多幫助,在」用 AI 帶來更多娛樂「這件事上,谷歌也沒有落下……

今年 I/O 主旨演講開場之前,谷歌還是照例組織了暖場音樂會。每年的這個環節都帶有些許各式各樣的科技成分。而今年的現場表演,看起來有兩位嘉賓,是加州本地的實驗樂隊 tUnE-yArDs.

但實際上除了她們倆人之外,還有9位嘉賓!

但實際上除了她們倆人之外,還有9位嘉賓!

看到下面圖中箭頭所指的地方了嗎?它們就是今年暖場音樂會的特邀嘉賓 :Blob Opera,由9個 blob 組成(也就是原生 Android 使用者熟悉的 emoji 形象的那個 blob,只不過這次這次出鏡的形象特別高畫質……)

Blob Opera 是谷歌少為人知的藝術和文化發展部門,旗下的一個實驗性項目,由數字藝術家 David Li 主導開發,去年首次面世的時候就曾經引發不小的轟動,甚至還展開了一場」全球巡演「——當然是虛擬的。在項目網站上,玩家可以自己創建一個」合唱團「,定製每一位」歌手「的音調,或者讓它們演唱已經保存好的曲目。

I/O 2021 的暖場音樂會,也是 Blob Opera 首次和真人歌手同臺合作。

Blob Opera 的背後是兩個基於卷積神經網路的模型,一個負責唱,另一個負責安排和弦。當然,訓練過程中也藉助了人類歌手提供的資料。訓練過後,計算機不僅學會了如何將音調和口型結合起來,還能努力配合真人歌手演出,完成對唱或和聲,儘管效果十分滑稽……

參與了前期準備和彩排工作的谷歌員工表示,Blob Opera 的歌聲」太洗腦「了。在現場,Blob 們模仿真人歌手」鸚鵡學舌「的樣子也超級搞笑……

現場表演視訊(約20分鐘):

當搜尋公司遇到醫療

AI+醫療是今年穀歌想要在 I/O 大會上著重展示的另一個重要方向。

實際上,谷歌做醫療已經有相當長一段時間了,在2016、17年就提出過用計算機視覺做糖尿病早期檢測,當時矽星人/品玩也報道過;之前谷歌拆分成立 Alphabet 的時候,還專門組建了一家醫療科技公司 Verily。但總的來說,谷歌醫療方面的商業化進展並不是很快(當然這也許不是一件壞事。)

今年 I/O 上,谷歌介紹了 AI 醫療團隊開發的 Derm Assist 項目。這是一個由機器學習計算機視覺演算法驅動的工具,能夠僅用普通手機或者網路攝像頭的畫面,準確地判斷使用者皮膚可能出現的病變情況,分析病情,提供準確的資訊。

這個項目,最初來自於谷歌搜尋引擎每年都會收到數十億次關於皮膚、指甲和頭髮問題的查詢和提問。全球預計有19億人患有不同程度的皮膚病,但由於皮膚病多種多樣,在搜尋引擎上很難描述清楚,使用者也就不容易得到足夠準確和有針對性的答案。與此同時,可信賴的皮膚病專家也存在全球短缺,只能由全科醫生頂替,而全科醫生的誤診率浮動程度很大,總體的診斷準確度比專科醫生差很多。

結果很多患者因此無法及時、準確了解到自己的病情發展,錯失最佳治療時間

谷歌AI醫學專家 Peggy Bui 博士接受矽星人採訪表示,自打項目伊始,她們就在思考,在訓練機器學習模型的時候應該聚焦什麼方向,是用超高畫質的、顯微鏡級別的畫面來輔助醫生做出診斷,還是用任何攝像頭都可以拍的普通照片也行,從而最終為更多的普通使用者提供一個更好用的皮膚病預測工具。團隊最後選擇了後者。

谷歌在2019年開始訓練一個深度學習系統,採用 Inception-v4 神經網路架構,模仿臨床醫生的思維方式,整合拍攝的圖像和年齡、性別等其它元資料進行處理。在實際使用中,這個系統可以根據皮膚症狀排列出可能的皮膚病(範圍達到26種),從而幫助患者進行快速分診、診斷和治療。

由於在設計和訓練階段有針對性地引入了多元化的資料集,Derm Assist的診斷準確性不受膚色的印象,對於深色皮膚的人士(他們通常比淺膚色者更難接觸到高質量的醫療資源)是個好訊息。Derm Assist 的 top-1(最可能患上的疾病)預測準確率為71%,top-3 準確率高達90-93%,甚至高於皮膚科醫生 75%。

Derm Assist 將採用 PWA 的形式,也即通常理解的網頁應用,可以在任何手機或桌面瀏覽器上運行,無需專門下載安裝。它的網址是 health.google.com/dermatology

目前這項技術在美國屬於一級醫療器械(最低級)的範疇,但尚未獲得 FDA 認證。Bui 博士透露,預計今年年 Derm Assist 可以在歐盟國家開始使用。這項服務只扮演基本的初篩工作,只對來源資料進行分析並提供結果和皮膚病專家驗證過的可信資料,不會推薦使用者去哪裡就診。

更重要的是,使用者上傳的資料也會單獨存放處理,和」大「谷歌的資料是完全獨立的,不會用於推薦廣告。

從五六年前用視網膜眼底掃描輔助早期糖尿病患者篩查,到今天,谷歌 AI 醫療技術研究部門已經拓展出了至少7個項目,針對糖尿病、老年性黃斑變性、貧血、心血管疾病、皮膚病、肺癌、乳腺癌、前列腺癌等多種疾病。

很多項目,在多年之後仍然沒什麼特別之的誇耀的進展。比如2017年的糖尿病項目,當時說會在印度嘗試鋪開,但截至目前也沒有推廣進展可分享,唯一公開的進展也只是說會嘗試進入泰國。其它的項目,統一的說辭基本上就是」還處在開發測試階段「。這樣的情況給人一種印象,就是谷歌做 AI 醫療雷聲大雨點小。

但是換一種方式思考,或許給谷歌更多的時間也能讓它思考的更清楚。這是一家搜尋起家,現在全面投入 AI 的公司,而這兩個話題在資料操守、安全和社會責任方面的爭議性都不低。這樣的一家公司去做 AI 醫療,穩妥也許不是件壞事。

以上這些只是今年得到 AI 方面新內容的一小部分。因為篇幅限制,還有很多沒有提及。

比如谷歌全新的」量子AI計算營「(Quantum AI campus),集合了實驗室、晶片工廠,以及谷歌的第一座量子資料中心:

比如 Google Workplace(原 GSuite)三件套的許多新功能,在我們前天的報道里有所涉及:

再比谷歌在驅動搜尋引擎的知識圖譜 (knowledge graph) 基礎上開發的購物圖譜:用索引知識和理解知識之間關聯的方式,谷歌現在也在嘗試為全世界的商品資料、購物網站、庫存資料、評價資訊之間建立關聯,幫助使用者更好地完成購物(順便讓更多的購物流量和資料留在谷歌平臺上……)

如果你希望了解除了 AI 之外這次 I/O 大會的更多內容,歡迎補充閱讀我們前天發佈的大會報道文章。

I/O,希望明年還能線下再見!

關注矽星人,你就能了解矽谷最新的科技進展和灣區的大事小情,變身最in技術潮人

相關文章

Transformer,ChatGPT 幕後的真正大佬

Transformer,ChatGPT 幕後的真正大佬

ChatGPT的背後 ChatGPT紅得發紫,強得讓人類心悸。 但在它的背後,還隱藏著一位真正的大佬。 可以說,與它相比,ChatGPT其實...